【菜单式爬虫】八爪鱼爬虫笔记
最近因为爬取数据的需要,发现了可用性强的八爪鱼爬虫软件,是模拟人的行为,通过菜单式操作实现的。以此文简单记录遇到的一些问题及解决方案。
八爪鱼下载及官方视频教学
可以前往 八爪鱼官网,安装流程较为简洁,有官方教程学习,视频教学快速上手。个人感觉的优势在于:
- 可以菜单式操作,非常友好;
- 覆盖了大部分爬虫需求;
- 有不少成形模板,自定义配置也比较方便。
一些小的tips
1.使用指定cookie避免爬虫中断
在打开网页->高级设置->使用指定cookie,可以在登陆之后获取当前页面的cookie
2.使用页面滚动进行完整加载
在打开网页->高级设置->页面滚动,无内容更新时结束滚动
3.可以先获取网址,之后通过设置循环实现爬取
添加当前网址,这样的好处是后面可以回溯没有爬取成功的网址