八爪鱼使用指南(2)以某音的短剧评论为例

前言:

仅用于学习!!!!!
由于之前的教程两个实例比较混杂,导致部分小白没有看懂,所以进行了一定的修改,将某音和某宝的评论翻开来看。

八爪鱼简介:


1. 下载地址


官网:

免费下载 - Windows版爬虫工具软件 - 八爪鱼采集器

2. 相关文档和教程:

八爪鱼帮助中心

八爪鱼不付费无法使用模版,但是八爪鱼的模版有点一言难尽,并且,八爪鱼本身创建模版并不是很难,所以个人建议是自己学着写模版,毕竟八爪鱼的模版并没有包含所有的APP。

ok,不再多说,直接上实例吧

实例:某音的短剧评论

这里虽然说是短剧的评论,实际上,短视频的网址也同样适用。

注意注意注意: 

dy的风控是十分严格的,不是一般的严格,而且你如果被风控,短则几个小时,长则几天,这些时间你的账号基本只能刷视频了,一旦进入短剧就直接风控。

dy的风控看起来是访问失败或者说网络繁忙,但是实际上基本就是账号被风控了,其每一个功能的风控是相互独立的,也就是你评论被风控了,但是你的视频可以正常播放,也可以正常搜索,所以每一步都要进行一定的停顿,防止被风控。(别问为什么,问就是亲身经历,都是泪啊)

在八爪鱼的模版里面也是有这个dy的采集的,但是比较慢,而且需要收费,我就自己创建了一个模版,配置如下

这是找到你对应的网址,这个大家基本都会,但是注意,在这里一定要设置执行前等待,方法就是点击上图的高级设置,就会出现执行前等待,可以自行调节打开网址的间隔时间。

这个打开网址,基本就是2-3s,如果害怕的话还可以设置5s

在dy网页版中,打开网址之后,就要向下翻页获取评论,dy和tb评论不同的是,dy是全局的滑动翻页,tb是部分的滑动翻页。

但是也要等待,因为打开短剧链接和评论翻页的风控是两个风控,可能会出现,短剧打得开,但是评论没有的情况,这边翻页的时候可以进行每隔3秒,或者2秒就可以。

之后就是点击元素和进行采集了,这一部分就需要大家自己动手采集自己需要的数据了。

结语:


注意哦,如果使用自己创建的模版是不需要进行花钱的,免费版就可以使用,如果要使用八爪鱼提供的模版,就需要自己进行花钱升级,升级之后可以同时进行采集,个人版上限是3个,大家可以根据自己的情况来进行,个人建议在多开的时候,换另一个账号,毕竟平台风控的是你的账号。感谢大家阅读,如果觉得有用,就多点点赞吧,谢谢各位了。

另外推荐一个开源项目

GitHub - NanmiCoder/MediaCrawler: 小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 | 百度贴吧评论回复爬虫 | 知乎问答文章|评论爬虫

各位注意一下:

下面转载的原因是,我之前将指南1和2写为了一个,之后想分开,但是在分开的时候出现了版权问题,只能用这种方式解决。

### 八爪鱼采集使用指南 八爪鱼是一款功能强大的网页数据抓取工具,适用于多种场景的数据收集工作。对于初学者而言,理解并掌握基本操作流程至关重要。 #### 安装与配置 为了开始使用八爪鱼采集器,需先访问官方下载页面获取最新版本软件[^1]。安装完成后启动程序,按照提示完成初始化设置。 #### 创建新项目 进入主界面后点击新建按钮创建一个新的采集任务。此时可以选择手动输入目标网址或导入文件来指定要抓取的目标网站链接。 #### 设计采集逻辑 针对具体需求设计合理的采集路径非常重要。以某平台上的短剧评论,可以采用如下策略: - **定位元素**:通过浏览器开发者工具找到评论区对应的HTML标签结构; - **提取规则定义**:利用XPath/CSS Selector表达式精准匹配所需字段; - **分页处理机制**:考虑到多页加载特性,适当加入循环语句遍历全部页面; ```python from octoparse import OctoparseAPI api = OctoparseAPI('your_api_key') project_id = api.create_project(url='https://example.com', name="Short Drama Comments") # Define extraction rules here... ``` #### 执行与监控进度 设定好各项参数之后即可运行脚本执行实际的抓取动作。期间可通过内置的日志查看实时状态更新以及错误报告以便及时调整优化方案。 #### 数据导出选项 成功获取到预期的结果集以后支持多种形式保存至本地磁盘,如CSV、Excel表格或是直接对接数据库存储等。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值