关于裁判文书网的一些建议
有部分小伙伴私聊我一些文书网的东西。原因应该是我关于文书网批量下载的博文,写得太过简单。但我认为实现思路其实就这么简单,登录爬取,就没其他操作可言了。今天整理一下大概的问题。
数据爬取需谨慎,学习就学习,知道怎么行就好。
1. 为什么我的selenium在跳转页面后就是空白?
这个问题吧是chrome driver被检测了,这个很常见。
解决方式:下载可以将exe文件转换为16进制文件的软件。通过搜索 $cmd_ 把搜到的改为 $xxx_ 就行了。
2. 下载按钮和批量框,点击不上?
这个问题,可以设置等待时间,并且在点击前做一个检测,检测一下所选tag存在否。检查一下xpath。
3.只能下600个?
这里批量下载是只能下600个。但是你可以根据条件做限制,这样就能获取更多了。
4. 选择框?
关于选择框那儿确实不是我们常见的select下拉框选项,但总体一样,你只需要定位到每一个选项进行click点击事件,就能得到树枝信息了。
5. 将数据信息提取并分类?
对不起,没做过没研究。这个我建议刑法专业小伙伴,可以整理整理,既能提高技能,又能为做个总结。