Hello everybody ! 很久没有更新文章了,最近公司太忙了,没得办法。这周和一高中同学聊天,他的职业是一名律师,最近他自己在深圳创业,需要获取“中国执行信息公开网“的一些失信公司信息,作为一个小渣渣的我于是毛遂自荐答应帮他爬取到这些数据。当时本人心里虚的一批,不知道凭自己的渣渣技术能不能帮助到他,但是为了帮助好哥们创业我也就豁出去了,哈哈!
那好,首先我们看下这个网站“http://zxgk.court.gov.cn/shixin/”的大概界面显示,我们把网页往下拉可以看到有一栏查询条件,其中包括“被执行人姓名”、“省份”、“身份证号码”、“验证码”。在这里我们只需要在“被执行人姓名/名称”中输入“深圳”,然后再输入正确的验证码并点击查询即可获取到查询结果,如图所示。
那我们现在对这个网页有个大概的了解了,那我们要怎么获取到查询结果中的公司名称、立案时间和案号呢?
我们一一进行解析,这边呢我们最主要解决的是在输入框输入文字和验证码的问题,这个验证码是实时、非固定的。对于文字输入的问题我可以使用之前学过的selenium、Xpath定位元素的方法解决,那验证码该怎么解决呢?这个超出我的知识范围了,于是左思右想就想到了B站,这里要夸赞B站真是个神奇的网站,通过网站我找到了一种最简单的方法,就是先把当前的验证码进行截屏并保存到本地,然后通过input方法手动输入验证码,这样就解决了验证码的问题 。
那再接下来,我们在详细讲一下是怎么通过selenium、Xpath进行元素定位的呢。这里我使用的是Firefox浏览器。首先我们鼠标右击空白界面选择查看元素&