selenium+xpath爬取深圳失信公司

 

   Hello everybody ! 很久没有更新文章了,最近公司太忙了,没得办法。这周和一高中同学聊天,他的职业是一名律师,最近他自己在深圳创业,需要获取“中国执行信息公开网“的一些失信公司信息,作为一个小渣渣的我于是毛遂自荐答应帮他爬取到这些数据。当时本人心里虚的一批,不知道凭自己的渣渣技术能不能帮助到他,但是为了帮助好哥们创业我也就豁出去了,哈哈!

  那好,首先我们看下这个网站“http://zxgk.court.gov.cn/shixin/”的大概界面显示,我们把网页往下拉可以看到有一栏查询条件,其中包括“被执行人姓名”、“省份”、“身份证号码”、“验证码”。在这里我们只需要在“被执行人姓名/名称”中输入“深圳”,然后再输入正确的验证码并点击查询即可获取到查询结果,如图所示。

    那我们现在对这个网页有个大概的了解了,那我们要怎么获取到查询结果中的公司名称、立案时间和案号呢?

                                                                         æç¬è¿å¯æä¹å

   我们一一进行解析,这边呢我们最主要解决的是在输入框输入文字和验证码的问题,这个验证码是实时、非固定的。对于文字输入的问题我可以使用之前学过的selenium、Xpath定位元素的方法解决,那验证码该怎么解决呢?这个超出我的知识范围了,于是左思右想就想到了B站,这里要夸赞B站真是个神奇的网站,通过网站我找到了一种最简单的方法,就是先把当前的验证码进行截屏并保存到本地,然后通过input方法手动输入验证码,这样就解决了验证码的问题  。                                                                                                                                 æç¬è£¸çï¼æç天å

  那再接下来,我们在详细讲一下是怎么通过selenium、Xpath进行元素定位的呢。这里我使用的是Firefox浏览器。首先我们鼠标右击空白界面选择查看元素&

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值