中国裁判文书网爬虫分析

最新推荐文章于 2024-06-10 11:21:35 发布

置顶

SCUTJcfeng

最新推荐文章于 2024-06-10 11:21:35 发布

阅读量9.1k

点赞数 8

分类专栏： Python

本文链接：https://blog.csdn.net/SCUTJcfeng/article/details/80159159

版权

前言

本篇主要分析文书网爬虫思路，仅供个人学习之用，切勿用于任何商业用途。

中国裁判文书网首页地址：http://wenshu.court.gov.cn/
这里写图片描述

网页地址：http://wenshu.court.gov.cn/content/content?DocID=532bd8ed-4ba8-48b7-ad70-0063f64ede05，从中提取出DocID，借助fiddler分析：
用到post方法，post的3个参数DocID已经知道，剩下的htmlStr和htmlName暂时未知，不过很容易就能猜出来，也可以拷贝出来urldecode解码查看具体内容。
但是我们仍然不知道htmlStr和htmlName的值怎么来的，接下来查看网页源代码，chrome按ctrl + u或者右键-查看网页源代码：

源网页是没有文档内容的，可以知道是异步加载，我们看到这样一段脚本，CreateContentJS，向一个地址请求信息
http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=532bd8ed-4ba8-48b7-ad70-0063f64ede05 ，抓包看看。

可以看到，请求的结果就包含了htmlStr和htmlName的值。然后，你需要对这串字符串进行处理，处理过程略过不提。
接下来要得到批量的DocID，回到搜索结果中，同样查看网页源代码我们得知DocID也是异步加载，查看抓包结果：

经过处理后，可以得到json数据：

也是post方法，除了webform

关注

专栏目录