转自:https://blog.csdn.net/niuming_rui/article/details/82786093
相信做爬虫的小伙伴们遇到‘中国裁判文书网’,就感觉无从下手。没关系,救星来了,帮你快速理清爬虫思路。
一.工具:谷歌浏览器
JavaScript Eval在线加密/解密,编码/解码工具 https://wangye.org/tools/scripts/eval/
二.要爬取的内容:所有案件的决定书的详细内容。
首先需要进入详情页,得到详情页的数据。
在这里插入图片描述
但右键查看‘网页源代码’,却什么内容都没有。
三.裁判文书网分析:
1.该网站是动态网站,(源代码里面有用的信息都没有)–>网页源代码是否含script标签–>列表页是否有专门的json接口->经发现:列表页有json接口。
2.研究json接口,发现参数vl5x,guid是随机字符串,其余的参数都是固定的。所以需要分析出这两个参数的来源,以及参数值是怎么设置的。
在这里插入图片描述
3.参数来源一般有以下几个:
①某一个url(一般不需要看Img/css/js,可能会在 网站的url/json的url),它的响应头Set-Cookie里面可能含有这些参数。注意:将网站的cookie从浏览器中全部清空(浏览器的更多工具->清除浏览数据)。因为cookie会有过期时间,如果cookie没有过期,服务器是不会将cookie放在set—cookie中返回。
②从json接口返回的json数据中,可能含有后续请求的参数,翻页参数中很常见;