本次练习的对象是上海法院开庭公告信息。数据来源如下:

该网站是上海法院的官方网站,网站内会公示未来已确定的开庭信息。

如上图所示,网站显示共有数据30528条。这些数据就是本次爬虫的目标。
(一)分析页面
1. 打开google浏览器开发者工具,点击页面下一页,观察网络请求可以发现,目标数据是这个请求返回的:

2. 下一步,观察上面这个请求的具体内容:

观察得出以下结论,这是一个post请求,具体参数含义为:
yzm 暂时不清楚来源
ktrqks: 2018-06-19 这是查询的起始时间,也就是当天
ktrqjs: 2018-07-19 这是查询的结束时间
本文介绍了使用Python爬虫从上海法院官网获取开庭公告信息的实践过程,包括页面分析、参数获取、数据请求及解析,揭示了在爬取过程中遇到的动态参数问题以及数据量与页面显示不一致的疑点。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



