猫眼爬虫-验证码解决问题

最近猫眼可能发现了我这篇博客,把验证码关闭了,皆大欢喜。

而且爬虫开始肆无忌惮起来,有的时候都503 了

 

------------------------------------------------------

 

众多帖子中,都拿猫眼来做爬虫,爬虫内容都大同小异的,这个说猫眼的数字编码有门道,那个说猫眼TOP100数据随便拿。或者就是猫眼专业版的信息怎么获取,但是真正的猫眼网站,就你们平时买电影票的网站就没有光顾过么?

公司需要,爬了猫眼的电影排期网站,遍历了一个城市的所有影院的电影排期,到最后的时候发现,有的页面开始了验证马识别,具体是怎么触发机器人验证码识别还没有找到原因,但是就有需要你填入验证码一次,成功的一次,然后才可以正常的访问猫眼的电影网页。

那么如何解决呢,分析了一下页面规则,发现就是一个验证码,一个数据post

看起来很简单的样子,try一try

但是,远没有你想的那么简单。

图片验证码不是固定的图片,而是一个url,每次重新获取这个url的时候都会刷新一个新的验证码,也就是说,页面显示的验证码和你现在通过url下载下来的验证码根本就不是一个东西。查看了cookie和post信息,完全都没有差异,那怎么玩?

当然验证识别的问题,直接交给解码平台了,能靠钱解决的问题,为什么要自己费劲巴力的写。

最后的解决办法很奇葩,类似自动化测试一样的调用了senlium,打开了一个网页,然后咔咔咔截图,将验证码的部分截取出来,再将截出来的验证码图片发送给解码平台,解码平台数据返回验证码内容,再通过senlium重新将数据填回去,click。

事情就这么完事大吉的解决了。对了我用python

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值