中间很长一段时间,由于各种原因,没有时间继续学习Python。
最近为了捡起Python,我开始不断锻炼自己的爬虫技术——爬取各种网页信息。
一直苦恼于网页登录时各种验证码的处理,感觉无从下手,可能是因为自己太过业余吧,哈哈……
对于审计人员来说,工作中需要经常查询企业信息,为了方便快捷地获取我们想要的企业信息,我一直在思考如何用Python去爬取各大企业信息查询网站。
其实,这个爬虫有很多大佬已经研究出来了,可能也算不上什么高大上的操作技能,而且有一些企业信息查询网站也支持批量查询,但是我还是想利用自己的业余时间把这个爬虫亲自写出来。
当然,也遇到了诸多问题。比如,爬取天眼查网站登录时的滑动验证码。
最终在本猴的不断研究与琢磨中,这个问题被解决了。
解决方案:
基于cookie绕过验证码自动登录
首先使用selenium手动登录一下,然后获取cookie值保存到本地,之后再登陆的时候直接调用本地cookie就可以了。这样就可以完美地绕过验证码自动登录!
获取cookie的过程就不在这赘述了,小编从来只关心结果。
下面以天眼查为例,开始我们的操作。
把我们需要查询企业的全称依次写入excel模板的A列,见下图: