![d0d3153a644c865e085c6243c25dac5f.png](https://i-blog.csdnimg.cn/blog_migrate/de387324bfb0c880270b7d0edcb9b49e.jpeg)
采集网址:
http://www.pkulaw.cn/cluster_form.aspx?Db=news&menu_item=law&EncodingName=&keyword=&range=name&
![21fccd9af9c4996b59ff908846b10405.png](https://i-blog.csdnimg.cn/blog_migrate/b6c1a95148534549db3b546364ff58c5.jpeg)
采集目标:1. 遍历抓取列表页的内容页地址2. 内容页采集字段:标题,内容,关键词语,来源使用工具:1. 火车采集器2. Fidder抓包软件采集成果:
![1457ca6718db41f08207d9f613532235.png](https://i-blog.csdnimg.cn/blog_migrate/0d21bb79bd6781d13c06fee71012c80a.jpeg)
![d9bb730fa35f17db0749186e163c7235.png](https://i-blog.csdnimg.cn/blog_migrate/681d6ef78971f5b00f259269bcbc6a81.jpeg)
![f8d91531ef544eea2c385d056edfd5da.gif](https://i-blog.csdnimg.cn/blog_migrate/d9b7f117c4b90a4b04275801c3f1160c.gif)
那么我们接下来看如何用火车采集器来获取法律法规数据。
第一步:打开火车官网 www.locoy.com 下载最新版火车采集器并安装
![78ce05c24e96f2dad725314acceddb94.png](https://i-blog.csdnimg.cn/blog_migrate/ded13aadccf401f907605cd2792ec8cd.jpeg)
第二步:打开软件中列表页面,使用fiddler抓包获取数据包并分析,得到实际的数据请求(多抓取几个分页进行对比)
![22f9798d6835055fe28976600ee88c8d.png](https://i-blog.csdnimg.cn/blog_migrate/a84bf999ee76b592c7eb1472569de3e1.jpeg)
通过分析可以看出,分页的加载方式是POST请求,POST表单中有控制分页的变量,内容页地址在源码当中的格式清晰可见。
第三步:在采集器中新建规则,按照Fiddler抓包得到的信息编写列表页的获取规则POST请求地址填写到起始地址栏中
![82cf4e111aca675be2e716f3a228f66a.png](https://i-blog.csdnimg.cn/blog_migrate/fe45757c77a053d4a4ef3d4af509521e.png)
POST分页需要在高级模式下设置,分页设置选择POST
![635c639fc0734ccf89e4d383e6afb0da.png](https://i-blog.csdnimg.cn/blog_migrate/4a5c9718152336099cd5c24c3583c61f.png)
填写POST表单,将分页控制参数用[分页]变量替换,然后设置分页范围
![7bef4b23ecada7f6aed8692004e406d7.png](https://i-blog.csdnimg.cn/blog_migrate/3319522ee178640c77b01b09b4a55780.png)
第四步:分析源码后,在网址获取选项中设置内容页地址的获取规则,并测试采集列表
![ecfe390782bde7e2b2f486c194ec66bd.png](https://i-blog.csdnimg.cn/blog_migrate/bf05c86b69556af1568b59a15913b494.jpeg)
![75a569b1c2a228eb56447360e1a5a6ce.png](https://i-blog.csdnimg.cn/blog_migrate/f8ea828365b78f66de8d491b0051b3ce.png)
将抓包获取的头信息依次填写到HTTP请求设置中
![1521b20b1edad3da442ca4728e1e9d32.png](https://i-blog.csdnimg.cn/blog_migrate/cddfb5b31e38da1eef07de2ee873eb92.jpeg)
第五步:以上全部设置好后,可测试运行列表的获取,获取成功后可以继续制作内容采集规则
![792a870c20cf5357a2ebe897d7a54479.png](https://i-blog.csdnimg.cn/blog_migrate/83ff786c92dd6ba22042decd6dc78479.jpeg)
第六步:浏览器中打开一个内容页,找到需要采集的字段位置,和源码的对应关系
![8027754efcdadea125ac6be8c6203ccc.png](https://i-blog.csdnimg.cn/blog_migrate/1465236d834f2e91d33fd04e189b6054.jpeg)
![32a530cb0305abec030658abb073cdc6.png](https://i-blog.csdnimg.cn/blog_migrate/3fa91d26b16d7b8fe9756a40a6f36a69.png)
![37c714601f680806abb0b3f1b189758e.png](https://i-blog.csdnimg.cn/blog_migrate/1becbe4790ca4904135b2a864b914730.jpeg)
找到数据的前后位置就可以通过前后截取或者正则提取得到内容
![e464128b176f1cb1811f77437c728b6f.png](https://i-blog.csdnimg.cn/blog_migrate/8f70c6282137adee6718221c998aba7c.png)
第七步:由于”关键词语”字段有多个值,建议使用循环获取,以下是处理方法
设置关联多页并保存
![98e4d1959bb125c78108460b6d8b9cbc.png](https://i-blog.csdnimg.cn/blog_migrate/1b9a4849dbdc6be1ef9713902b98f1d6.jpeg)
从关联多页中进行循环提取
![5541ecafb9541c04ee8a17fdaff0cba2.png](https://i-blog.csdnimg.cn/blog_migrate/0b3eb66163097797a9ca1e9d088c027e.png)
![adb6c483f4ef7b45b776b611e49c2c84.png](https://i-blog.csdnimg.cn/blog_migrate/f7a9501c2ae07aa1cb9a25bee14c52fc.jpeg)
总结:通过Fiddler抓包分析数据请求信息,按照要求填写相应设置,编写内容字段的获取规则即可。注意:1.该网站采集存在封IP的问题,需要使用代理后才能长时间采集,2.Cookie一段时间后也存在失效问题
每周一数数据以及采集规则领取时间为2019/10/24日发文后5个工作日内。采集规则涉及到商业版本功能,建议用户登录商业版本使用此规则。
数据领取资格:火车采集器/火车浏览器/触控精灵商业版软件用户(服务年限内),如果您不是商业用户或者已经过了服务年限,但也想参与活动的话,可以新购软件或者升级续费,这样就能参与活动啦!通知一下哦,双11火车活动优惠折扣很大呢!
数据领取方式:
第一步:扫码添加火车运营微信号,火车运营助手会拉你进入活动群。
![31e92b8be839f7acf87af69d07a6c8c2.png](https://i-blog.csdnimg.cn/blog_migrate/772db41acde52404225ec76709e2f30f.jpeg)
第二步:进群后添加数据咨询客服.雅的微信号,经客服验证为服务年限内商业用户身份后,即可领取。
好啦,本期的“每周一数”就到这里了。如果您还有想要获取更多的数据资源以及采集器规则的话,可以在文章下方或是公众号后台留言,小采会综合大家的意见选择下一期赠送数据的主题哦!