在学会selenium之前,八爪鱼也是不错的数据采集工具(免费),本文是我学习使用此工具时的笔记。
其实官网已经给出了教程,实测对照着教程执行可以实现,以下是我个人的补充。
八爪鱼界面组成:左侧的流程图 + 右侧的网页 + 网页右上角的操作提示框
刚开始操作的时候,由于要关注的地方比较多,很容易点错,下文中的表格分成三列,分别记录网页和提示框中的操作方法,并给出了流程图中相应的变化,方便新手对照执行。操作都是从八爪鱼的首页开始,到点击【采集】按钮结束。
官网教程:输入一个关键词,实测采集成功
网页 | 操作提示框 | 流程图变化 | |
---|---|---|---|
1 | 在八爪鱼客户端首页,输入网址,点击【开始采集】 | 【打开网页1】 | |
2 | 点击搜索框 | 【输入文本】——【确认】 | 【输入文本】 |
3 | 点击【搜索】按钮 | 【点击该元素】 | 【点击元素】 |
4 | 点击元素 | 【采集该元素的文本】 | 【提取数据】 |
5 | 点击八爪鱼顶部导航栏的【采集】,开始 |
第4步中,如果要采集多个元素,依次点击网页和提示框即可,只需一行【提取数据】流程
官网教程:输入多个关键词,实测采集成功
网页 | 操作提示框 | 流程图变化 | |
---|---|---|---|
1 | 在八爪鱼客户端首页,输入网址,点击【开始采集】 | 【打开网页1】 | |
2 | 在【打开网页1】的下方,点击【+】,添加【循环】 | 【循环】框 | |
3 | 设置【循环方式】为【文本列表】,并录入列表(详见下文) | 列表成功录入 | |
4 | 点击搜索框 | 【输入文本】——【确认】 | 【输入文本】 |
5 | 实现【循环输入文字】的效果(详见下文) | ||
6 | 点击【搜索】按钮 | 【点击该元素】 | 【点击元素】 |
7 | 点击元素 | 【采集该元素的文本】 | 【提取数据】 |
8 | 把【打开网页1】拖到循环框内——京东首页搜索后跳转列表页,搜索框位置变更 |
流程图中的操作——步骤3
- 点击【循环】框的【步骤设置】按钮
,从【循环方式】的下拉框中选择【文本列表】
- 点击【循环方式】下的设置按钮
,输入关键词,一行一个,确认——应用
- 点击【循环】框的【切换循环项】按钮
,观察列表是否成功录入
流程图中的操作——步骤5
-
将【输入文本】拖动到循环框中
-
点击【输入文本】中的【步骤设置】按钮
-
勾选【使用当前循环里的文本来填充输入框】
-
点击【应用】
-
验证:设置的关键词是否能够依次填充到搜索框中
点击【循环】框的【切换循环项】按钮
——点击关键词——点击【输入文本】
最终流程
以下是我做出来的流程图,用到的关键词列表是:电脑、冰箱、彩电
提取出来的数据可以导出到Excel。虽然没有python + mysql方便,但也不失为一个好工具