RuiJi.Scraper是一款Chrome浏览器插件,可以可视化的对网页进行抽取,并导出抽取结果
本次更新添加爬取链功能,可以从指定页面按照规则设置对网站进行深度爬取
新功能位于新选项卡 - 爬取链 如图所示
我们以CSND搜索为例 创建爬取链 (您首先需要建立相关规则,搜索hub页规则及正文提取规则)
爬取链使用流程图的方式对爬取进行设置,首先设置爬取起始页面,这里起始页面的地址为
https://so.csdn.net/so/search/s.do?q=%E7%89%A9%E8%81%94%E7%BD%91&t=all&platform=pc&p=1&pageSize=30
点击规则匹配按钮,会自动匹配已创建好的规则 csdn搜索
抓取间隔设置10秒,此处的间隔为不同规矩及跨深度间隔,
点击csdn搜索节点,进行规则设置如下,目标地址填写一个内容页面 例如
填写完毕,按匹配规则按钮,将会出现csdn文章正文节点
继续对节点进行设置,点击 csdn文章正文,设置如下
设置完毕后就可以测试了,测试按钮位于保存按钮的左面,如下所示
以下为自动爬取页面
爬取的部分结果,分为两部分 一部分为列表页结果,另一部分为文章正文结果
项目地址