八爪鱼采集器使用方法

在学会selenium之前,八爪鱼也是不错的数据采集工具(免费),本文是我学习使用此工具时的笔记。
其实官网已经给出了教程,实测对照着教程执行可以实现,以下是我个人的补充。

八爪鱼界面组成:左侧的流程图 + 右侧的网页 + 网页右上角的操作提示框
刚开始操作的时候,由于要关注的地方比较多,很容易点错,下文中的表格分成三列,分别记录网页和提示框中的操作方法,并给出了流程图中相应的变化,方便新手对照执行。操作都是从八爪鱼的首页开始,到点击【采集】按钮结束。

官网教程:输入一个关键词,实测采集成功

网页操作提示框流程图变化
1在八爪鱼客户端首页,输入网址,点击【开始采集】【打开网页1】
2点击搜索框【输入文本】——【确认】【输入文本】
3点击【搜索】按钮【点击该元素】【点击元素】
4点击元素【采集该元素的文本】【提取数据】
5点击八爪鱼顶部导航栏的【采集】,开始

第4步中,如果要采集多个元素,依次点击网页和提示框即可,只需一行【提取数据】流程


官网教程:输入多个关键词,实测采集成功

网页操作提示框流程图变化
1在八爪鱼客户端首页,输入网址,点击【开始采集】【打开网页1】
2在【打开网页1】的下方,点击【+】,添加【循环】【循环】框
3设置【循环方式】为【文本列表】,并录入列表(详见下文)列表成功录入
4点击搜索框【输入文本】——【确认】【输入文本】
5实现【循环输入文字】的效果(详见下文)
6点击【搜索】按钮【点击该元素】【点击元素】
7点击元素【采集该元素的文本】【提取数据】
8把【打开网页1】拖到循环框内——京东首页搜索后跳转列表页,搜索框位置变更

流程图中的操作——步骤3

  1. 点击【循环】框的【步骤设置】按钮图片,从【循环方式】的下拉框中选择【文本列表】
  2. 点击【循环方式】下的设置按钮图片,输入关键词,一行一个,确认——应用
  3. 点击【循环】框的【切换循环项】按钮图片,观察列表是否成功录入

流程图中的操作——步骤5

  1. 将【输入文本】拖动到循环框中

  2. 点击【输入文本】中的【步骤设置】按钮

  3. 勾选【使用当前循环里的文本来填充输入框】

  4. 点击【应用】

  5. 验证:设置的关键词是否能够依次填充到搜索框中

    点击【循环】框的【切换循环项】按钮图片——点击关键词——点击【输入文本】

最终流程

以下是我做出来的流程图,用到的关键词列表是:电脑、冰箱、彩电
图片

提取出来的数据可以导出到Excel。虽然没有python + mysql方便,但也不失为一个好工具

### 八爪鱼采集器使用指南 八爪鱼是一款功能强大的网页数据抓取工具,适用于多种场景的数据收集工作。对于初学者而言,理解并掌握基本操作流程至关重要。 #### 安装与配置 为了开始使用八爪鱼采集器,需先访问官方下载页面获取最新版本软件[^1]。安装完成后启动程序,按照提示完成初始化设置。 #### 创建新项目 进入主界面后点击新建按钮创建一个新的采集任务。此时可以选择手动输入目标网址或导入文件来指定要抓取的目标网站链接。 #### 设计采集逻辑 针对具体需求设计合理的采集路径非常重要。以某音平台上的短剧评论为例,可以采用如下策略: - **定位元素**:通过浏览器开发者工具找到评论区对应的HTML标签结构; - **提取规则定义**:利用XPath/CSS Selector表达式精准匹配所需字段; - **分页处理机制**:考虑到多页加载特性,适当加入循环语句遍历全部页面; ```python from octoparse import OctoparseAPI api = OctoparseAPI('your_api_key') project_id = api.create_project(url='https://example.com', name="Short Drama Comments") # Define extraction rules here... ``` #### 执行与监控进度 设定好各项参数之后即可运行脚本执行实际的抓取动作。期间可通过内置的日志查看实时状态更新以及错误报告以便及时调整优化方案。 #### 数据导出选项 成功获取到预期的结果集以后支持多种形式保存至本地磁盘,如CSV、Excel表格或是直接对接数据库存储等。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ailsa2019

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值