最近研究网上的一些网页数据采集器软件,推荐一款可视化设计采集数据软件,下面把操作过程记录,希望对大家有所帮助。
下载软件【小O网兜】
一、启动软件
下载后,不需要安装,启动程序文件 【Start.exe】。
二、新建任务文件
启动后载软件左侧栏上新建任务文件。
如下截图。作者已经给提供几个现成的模板,点击下载保存即可。
下载打开后如下图;
三、配置字段
因为模板事先已配置好,因此打开后,我们可以选择打开网页节点,打开网页,同时在中间显示配置好的字段。
四、采集数据
接下来直接点击打开网页右键菜单,选择【循环执行】。
按照介绍,该模板已经配置好了【自动翻页】信息,可以自动采集十页数据。
果然是自动执行,根据介绍网站可能会弹出人工验证,因此需要人为的进行验证。
人工验证
五、执行完毕
执行完毕后,我们可以打开表格查看数据,也可以将数据导出CSV文件,可以在EXCEL软件中查看和做进一步处理。
以上记录备用。
六、小结
该软件总体而言,能实现功能,比较适合没有编程基础的人员采集,配置也不麻烦,需要熟悉下操纵界面,毕竟中间配置界面第一次看还是比较复杂的,还好是对比网页看,因此还可以,能接受。
采集过程遇到了反爬机制需人工处理,但软件对动作节点设置了【延时启动】可以在执行前进行延时启动,设置成30秒后,可以有效防范,后面的页面顺利执行完成,没有出现反扒人工验证。
采集结果符合预期,几乎已经把网页上显示的信息都抓取下来了,保存在表格里,可以导出。
最后说建议,支持采集图片、视频就好了。