一、后裔采集器是什么
后羿采集器是一款由原谷歌技术团队研发的智能网页数据采集软件。通俗讲就是一款采集数据的软件。
二、下载链接
下载安装即可!!!
三、简单使用
1.以boss直聘为例----使用智能模式:
①选择需要爬取的岗位并复制其链接:
②打开后裔采集器,使用智能模式开始采集并输入网址:
③调整想要的内容,然后点击开始采集si:
④然后进行启动设置,根据自己的需求设置,这里我只设置了去重:
⑤采集数据并导出(可以导出到数据库):
这里可以手动停止 也可以全部导出!!!
2.以携程爬取东湖的评论为例------使用流程图模式(可以理解为自定义模式)
东湖的评论网址搜索方法:打开携程 搜索东湖 点击评论 复制网址链接
①大致流程和上面一样,这里选择流程图模式:
②点击开始采集,输入网址后进行自定义,按照操作提示进行操作:
注意:1.这里第一个的"点击"要将新标签选择“否” 这样才能提取数据 ,否则会跳转提取不到数据2.这里最后翻页的"点击"要将新标签选择“是” 这样才能实现自动翻页 ,否则不会跳转翻页!!!
接下来的步骤以及设置就和第一个案例一样了!
补充:1.还有很多复杂的爬取数据方法 可以使用流程图模式实现!
2.与八爪鱼采集器相比,后裔采集器的一个优点是可以爬取折叠的评论, 使用流程图模式即可实现!