蓝天采集器起始页网址添加需要采集的目标列表页

采集器设置

点击任务底部进度条的“采集器设置”进入规则编辑界面

  • 输入采集规则名称和目标网站编码(可自动检测)
  • 页面渲染:自动加载出ajax内容,适用于js脚本较多的页面
  • 自动补全网址:将网页中的相对地址(不包含域名的网址)转为绝对网址(包含域名)
  • 网址不排重:默认会将采集过的内容页排重处理,不排重适用于更新频繁的动态页面
  • 请求头信息:以适应需要登录的、手机浏览的等界面,可分别设置抓取页面和下载图片的请求头信息

起始页网址

添加需要采集的目标列表页

点击“+”号可批量添加网址,勾选“设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址

内容页网址

编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”

多级网址获取:适用于小说、影视等连载形式的内容

只要内容页网址不是直接从起始页抓取的,都可以通过多级来获取

关联页网址获取:适用于数据分散在多个页面中

如需要抓取的字段不在内容页,而在其他页面中,则可以使用该功能将其他页面也作为内容源

获取内容

“添加默认”可以自动设置几个常见的字段,能满足大部分文章类型的站点采集

如果目标数据格式比较复杂,可点击“+”自行编写字段规则,支持正则表达式、xpath、json等多种匹配方式

数据处理”可将采集到的字段值进行过滤或替换内容,每个字段都可单独处理或使用通用处理

如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容

测试规则

采集器配置完成后需点击保存按钮,刷新后可在“内容页网址”选项卡和“获取内容”选项卡中看到测试按钮

测试列表页中抓取网址

测试页面中抓取数据

测试抓取分页

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值