裁判文书网python爬虫分析2019-2-19

最近发现文书网又双叒更新了反爬策略.微微蛋疼
在这里插入图片描述
抓个包压压惊…
发现post请求的时候多了个参数.?MmEwMD
这他喵的啥玩意…找了大半天的也没找到生成原理…emmmm~pass掉不管它.继续抓包

先打开Chrome浏览器,清理cookies跟缓存.
F12切换到NETWORK选项, preserve log打上对勾.
打开文书网列表页开始抓包

这个时候发现出现了两次列表页的请求…
在这里插入图片描述
点开第一次的请求, 发现它给我们返回了两个cookie…
在这里插入图片描述
然后点开第二个请求,发现返回了一个核心参数vjkl5。

在这里插入图片描述
而且第二次请求中cookies的N80T值居然不是上一次请求获得的N80T值.长度也不一样,好阔怕的网站…
这说明在第一次请求之后, 本地的cookies被修改了.
继续找原因…

于是乎发现在第一次和第二次请求之间, 还有这个请求.
有的时候是D开头,不知道什么鬼.
就是这个链接:
http://wenshu.court.gov.cn/4QbVtADbnLVIc/c.FxJzG50F.6152bb9.js?D9PVtGL=6152bb

看完这个文件整个人都不好了
去度娘找找有没有巨人写好的解密代码
经过半个小时的不懈努力
终于 找 到 了!!
(代码自行百度)
ok, N80T解决…

然后直接拿以前的方法(guid, vl5x, number 这些的生成方式git上一大堆自己找)加上现在的cookie(80T, 80S vjkl5)请求一下看看有什么反应.
在这里插入图片描述
好像是阔以拿到一些数据, 但是请求一页列表页后就无限202.

多次尝试, 每次翻页都要更换80T才行…如果还是不行, 那就重新请求vjkl5和80S,80T.

大体思路就是这样, 这个网站坑太多, 慢慢填…

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值