前言
最近在做一个比赛的爬虫项目,接触到了八爪鱼这个爬虫工具,使用的感官不错,如果是第一次使用的话收费也比较便宜,当然其实不用收费也可以正常使用只不过需要你自己去建立模版
八爪鱼简介
八爪鱼网页数据采集器,是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取,连续五年大数据行业数据采集领域排名领先。(浅浅吐槽一下,这是八爪鱼自己给自己的设定)
相关网址:
官网:
相关文档和教程:
ok,不在多说,直接上实例吧
实例:
实例1:某宝的商品评论
八爪鱼自己是有对应模版的,但是我在使用的时候发现其模版有点问题,爬的数据不全面。
这个预登陆真的超赞,一步解决了登录的问题,直接打开网站的第一扇门
tb的评论必须要进行点击,而八爪鱼也给了对应的点击操作,使用八爪鱼点击一下,它变成蓝色
选择点击一次,之后会出现
这才是全部的有效评论,之后点击想要爬取的数据
像这样,会出现这个
点击选中全部相似元素 ,之后点击元素中数据内容,之后会出现
选择滚动加载,因为tb的评论设置是滚动动态加载的,必须滚动之后才会有数据 ,并且是局部的滚动,设置如下
局部滚动的Xpath是这个地方,如下图
这样基本就可以开始采集了,但是个人建议是,每次采集的时候都需要对操作进行一定的停顿,防止被风控。
这个地方按自己喜欢的来设置,但是尽量不要很快,太快会导致风控,之后的几个小时可能会有验证,甚至是暂时的账号封禁,得不偿失。之后就可以采集了
结语:
注意哦,如果使用自己创建的模版是不需要进行花钱的,免费版就可以使用,如果要使用八爪鱼提供的模版,就需要自己进行花钱升级,升级之后可以同时进行采集,个人版上限是3个,大家可以根据自己的情况来进行,个人建议在多开的时候,换另一个账号,毕竟平台风控的是你的账号。感谢大家阅读,如果觉得有用,就多点点赞吧,谢谢各位了。