如何爬取网站文章—小白作弊器
后裔采集器
下载地址
这款软件目前是我用过优化最好的软件,比起火车头,八爪鱼来说优势那就是 白嫖的 。
至于如何使用。原本还想写些教程的,但是官方文档写的已经是最好的了,对于我这种懒狗真的是福音,只要会写一点xpath就可以随便爬取。
xpath不会写?
第一步在网页按下F12点击左上角的小方框,第二步点击你要爬取的对象,第三步就可以知道你所需要爬取的字段html的位置
最后右键 复制 xpath 就可以了
当然除了一些大厂开发的网站用采集器是爬不下来了的,比如微信公众号的文章,美团,淘宝,京东等,这些是我目前尝试过用采集器是爬不下来的。
如何爬取微信小程序-文章
这里就涉及到一个神器了爬山虎采集器,当然啊,这个软件不是完全白嫖的,是有爬取限制的,每天只能爬取一千条数据
而且只能导出文件为TXT格式的文件,其它的要充钱你懂的。
使用方法和后裔采集器差不多,就是功能差了很多
当然效果我认为是差不多的,这个采集器的难处主要在于xpath要写好,因为选取文本功能要充钱。。。。。
爬取效果图:
最后呢,我还是希望大家能够自己手写嗷,毕竟技多不压身,别像我一样懒狗。
这里推荐一个github开源项目
https://github.com/wnma3mz/wechat_articles_spider
这个真的是非常良心的手把手教的如何爬取微信小程序文章的教程,推荐大家看看
射射观看~