fiddler汉化如何替换_每周一数丨小采教你如何用火车采集器爬取法律法规新闻数据（送规则+数据）...

最新推荐文章于 2023-04-25 22:25:02 发布

weixin_39647180

最新推荐文章于 2023-04-25 22:25:02 发布

阅读量282

点赞数

文章标签： fiddler汉化如何替换马克斯(maxcms)4.0采集规则使用方法

采集网址：

http://www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&

采集目标：1. 遍历抓取列表页的内容页地址2. 内容页采集字段：标题，内容，关键词语，来源使用工具：1. 火车采集器2. Fidder抓包软件采集成果：

那么我们接下来看如何用火车采集器来获取法律法规数据。

第一步：打开火车官网 www.locoy.com 下载最新版火车采集器并安装

第二步：打开软件中列表页面，使用fiddler抓包获取数据包并分析，得到实际的数据请求（多抓取几个分页进行对比）

通过分析可以看出，分页的加载方式是POST请求，POST表单中有控制分页的变量，内容页地址在源码当中的格式清晰可见。

第三步：在采集器中新建规则，按照Fiddler抓包得到的信息编写列表页的获取规则POST请求地址填写到起始地址栏中

POST分页需要在高级模式下设置,分页设置选择POST

填写POST表单,将分页控制参数用[分页]变量替换,然后设置分页范围

第四步：分析源码后,在网址获取选项中设置内容页地址的获取规则,并测试采集列表

将抓包获取的头信息依次填写到HTTP请求设置中

第五步：以上全部设置好后,可测试运行列表的获取,获取成功后可以继续制作内容采集规则

第六步：浏览器中打开一个内容页,找到需要采集的字段位置,和源码的对应关系

找到数据的前后位置就可以通过前后截取或者正则提取得到内容

第七步：由于”关键词语”字段有多个值,建议使用循环获取,以下是处理方法

设置关联多页并保存

从关联多页中进行循环提取

总结:通过Fiddler抓包分析数据请求信息,按照要求填写相应设置,编写内容字段的获取规则即可。注意:1.该网站采集存在封IP的问题,需要使用代理后才能长时间采集,2.Cookie一段时间后也存在失效问题

每周一数数据以及采集规则领取时间为2019/10/24日发文后5个工作日内。采集规则涉及到商业版本功能，建议用户登录商业版本使用此规则。

数据领取资格：火车采集器/火车浏览器/触控精灵商业版软件用户（服务年限内），如果您不是商业用户或者已经过了服务年限，但也想参与活动的话，可以新购软件或者升级续费，这样就能参与活动啦！通知一下哦，双11火车活动优惠折扣很大呢！

数据领取方式：

第一步：扫码添加火车运营微信号，火车运营助手会拉你进入活动群。

第二步：进群后添加数据咨询客服.雅的微信号，经客服验证为服务年限内商业用户身份后，即可领取。

好啦，本期的“每周一数”就到这里了。如果您还有想要获取更多的数据资源以及采集器规则的话，可以在文章下方或是公众号后台留言，小采会综合大家的意见选择下一期赠送数据的主题哦！

weixin_39647180

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
fiddler汉化如何替换_每周一数丨小采教你如何用火车采集器爬取法律法规新闻数据（送规则+数据）...

采集网址：http://www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&采集目标：1. 遍历抓取列表页的内容页地址2. 内容页采集字段：标题，内容，关键词语，来源使用工具：1. 火车采集器2. Fidder抓包软件采集成果：那么我...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。