RuiJi.Scraper 3.0 新增爬取链 - 深度爬取网站

最新推荐文章于 2024-09-29 16:13:01 发布

市井贩茶弄IT

最新推荐文章于 2024-09-29 16:13:01 发布

阅读量264

点赞数

分类专栏： RuiJi Scraper 文章标签： chrome scrapy scraper crawler 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42581666/article/details/108284475

版权

RuiJi Scraper 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

RuiJi.Scraper是一款Chrome浏览器插件，可以可视化的对网页进行抽取，并导出抽取结果

本次更新添加爬取链功能，可以从指定页面按照规则设置对网站进行深度爬取

新功能位于新选项卡 - 爬取链如图所示

我们以CSND搜索为例创建爬取链（您首先需要建立相关规则，搜索hub页规则及正文提取规则）

爬取链使用流程图的方式对爬取进行设置，首先设置爬取起始页面，这里起始页面的地址为

https://so.csdn.net/so/search/s.do?q=%E7%89%A9%E8%81%94%E7%BD%91&t=all&platform=pc&p=1&pageSize=30

点击规则匹配按钮，会自动匹配已创建好的规则 csdn搜索

抓取间隔设置10秒，此处的间隔为不同规矩及跨深度间隔，

点击csdn搜索节点，进行规则设置如下，目标地址填写一个内容页面例如

https://blog.csdn.net/weixin_43846020/article/details/107300971?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159799375719724845009539%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=159799375719724845009539&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-8-107300971.first_rank_ecpm_v3_pc_rank_v4&utm_term=%E7%89%A9%E8%81%94%E7%BD%91&spm=1018.2118.3001.4187

填写完毕，按匹配规则按钮，将会出现csdn文章正文节点

继续对节点进行设置，点击 csdn文章正文，设置如下

设置完毕后就可以测试了，测试按钮位于保存按钮的左面，如下所示

以下为自动爬取页面

爬取的部分结果，分为两部分一部分为列表页结果，另一部分为文章正文结果

项目地址

https://github.com/zhupingqi/RuiJi.Scrapy

市井贩茶弄IT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

市井贩茶弄IT CSDN认证博客专家 CSDN认证企业博客

码龄6年

53: 原创

11万+: 周排名

172万+: 总排名

4万+: 访问

: 等级

681: 积分

12: 粉丝

17: 获赞

9: 评论

90: 收藏

私信

关注

热门文章

分类专栏

物联网 7篇
Web3D 1篇
数据库 1篇
硬件 1篇
asp.net 2篇
RuiJi.Net 14篇
大数据 12篇
RuiJi Scraper 9篇

最新评论

MqttEmu 物联网设备模拟器
dicaberg: 请问，选择生成器为阿里云后，ProductKey、DeviceName、DeviceSecret出不来是什么原因？
彩虹5G 逼坑指南
m0_68049525: 彩虹5G物联卡确实是这种套路，我也有一张，抖音上买的，说的是9.9元/月10G，首次激活说是要充100，送260，但实际操作后，仅到帐20，问客服，余下的80元怎么回事？开始说是以后每月到帐20，这本来就是我充值的话费，后来到了次月，也没见再到帐，再问客服，却回复说：“余下的80元已经全部购买优惠券了！”这操作真是无语了！要想接着使用，只能继续充值！而且客服这边，还私自屏蔽了一部分有争议关键点的客服记录，如：我送的证据截图等，对这彩虹5G的这些骚操作难道就没有相关部门来监管这些无良商家？真是可悲了！
彩虹5G 逼坑指南
2301_79874644: 我也有两张，搞的能用，网络不好
微信小程序使用阿里云物联网API开发物联网应用
郭子凡: 你好老师可以加入你的微信吗
MqttEmu 物联网设备模拟器
xurt75: 项目需要改写一下该应用，请问MqttEmu编译的node版本号？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。