中国裁判文书网爬虫分析（2019年7月版）

最新推荐文章于 2024-08-15 09:54:11 发布

浮而不实

最新推荐文章于 2024-08-15 09:54:11 发布

阅读量8.7k

点赞数 10

分类专栏：网络爬虫文章标签：网络爬虫 nodejs 采集数据

本文链接：https://blog.csdn.net/qq_40989066/article/details/95745680

版权

前言

工作原因，第一次爬虫任务就是中国裁判文书网，中国裁判文书网是目前全球最大的裁判文书网，网站上公示全国历年的司法数据。这个网站隔一段时间就改一版，为了防爬，哈哈哈，和各大采集大神斗智斗勇，如果感兴趣的朋友可以去看看这个网站，这货连个a标签都加密，呵呵，简直丧心病狂。
链接如下：中国裁判文书网

爬虫环境

这一段，是给新手看的部署环境，高手可自行移步到下文的思路区。

本人入门爬虫是用node.js入门，爬虫（新学），nodejs 也是新学的，所以不用怕学不会。（语言都是工具，主要是针对解密大概率用js，懒的拉库，就用nodejs啦，其实python也不错。）
至少会用一件监控浏览器request，reponses请求的工具(抓包工具)。windows可以推荐一款fiddle，mac可以推荐一款whistle,自带代理IP，需要吐槽的是每天需要手动调整ip，其他还行。
代理IP，这个还是需要准备一下子的，到时候封你IP可就烦了。
会用游览器（这点需要延伸很多，这里我就不再一一赘述了）

爬虫分析

首先来看看这列表页，这就是咱们的目标啦。
文书网列表页
再来看看他的header
在这里插入图片描述
这是他的body（也就是发送过去的表单）

话不多说，header复制全，直接发送请求，request过去，看看有没有数据回传，结果疯狂remind key(心中一万个草尼玛)，后来我利用whistle 发现第二次replay向列表页发送请求时有个参数 connection：从keep-alive 变成close，改完就收到数据。（这里请不要嘲讽我，我的确就是这样ok的）

来看看回传的数据
在这里插入图片描述
没错，你没有看错，确实拿到数据了，等cookie失效就remind key了。既然知道思路了，那再来看看body。

vl5x:会变（一看就是个加密参数好吧）
number：也是个不知到啥玩意的东西（这个我真的想笑）
guid：会变（一看就是麻烦的东西）因为很长（太真实了）

来看Cookie
在这里插入图片描述
这还是我清除数据后的cookie，一开始，Cookie有点多,我吓到了。实际上我实践过只有vjkl5有用，其他都是纸老虎，呵呵。

第一看看Number

来看看number 我曾到各大平台上的number破解教程请看如下（思路是对的，但是是时代在变化，文书网也在变化）
在这里插入图片描述
这个url http://wenshu.court.gov.cn/ValiCode/GetCode

post都变成get了，网站早改了。number现在变成了徒有其表的障眼法。
body有无number，他都会返回数据。

接下来GUID

首先咱们搜索一下，guid的出处，一看，其实很简单，js加密可以直接拿来用。
在这里插入图片描述
那guid也解决了。

最后来看vl5x

body中的vl5x和cookie的vjkl5是不是感觉有点关联呢。哈哈哈，直接搜索源码。
在这里插入图片描述
一看就是一堆加密函数，看着有点头大，vjkl5在里面加密。接下来看看vl5x
哈哈，果然，露出了庐山真面目，vl5x就是加密后的vjkl5.接下来就想着如何在本地生成vl5x就万事大吉了。

首先我们整理一下思路，vl5x是vjkl5加密后的产物，那么我现在应该先得到vjkl5，而vjkl5又是我们发送header内cookie的必要参数，那么我们就需要首先获得网站的setcookie，拿到后就利用正则表达式把vjkl5剥离开来。

这里调用的request模块直接发送请求，返回cookie，拿到vjkl5

request({
   
        url: url,
        method: "POST",
        json: true,
        headers: {
   
            "Host": "wenshu.court.gov.cn",
            "Cache-Control": "max-age=0",
            "Upgrade-Insecure-Requests": 1,
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36",
            "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
            "Accept-Encoding": "gzip",
            "Accept-Language": "zh-CN,zh;q=0.9",
            "Connection": "keep-alive"
        }
    }, function(err, response, body) {
   
        if (!err && response.statusCode == 200) {
   
            function createGuid() {
   
                return (((1 + Math.random()) *

最低0.47元/天解锁文章