链接:https://pan.baidu.com/s/14OMqMjZPeMum8JKfajXZZA
提取码:ma5v
伸手党的福利,这是爬虫的文件,运行qcc.py,另个py文件是用来拖动验证码的。程序需要输入的是一个公司名称的列表文件,由于我也是初学,所以程序写的一般,大家凑合看吧。
下面是爬虫的相关背景以及思路介绍:
同学在证券公司上班,需要企查查的一些信息,他给了我一个公司名称的表格,找我帮忙做一个公司信息的表格,我觉得可以用爬虫解决这个问题,就写了这个程序。
爬虫首先就是看一下网站的结构,随便打开一个企业详情:
华为技术有限公司
电话和邮箱信息都被隐藏了,必须登录才能展示,于是乎,我用Python+selenium写了很多模拟登录的代码,各种跳转,最后使用微博登录(很多爬虫都是这么干的)。写完了发给同学,账号登录就算登录上也不稳定,在我电脑上没毛病的,到他那一堆毛病。电话和邮箱依旧不好使。
此事搁置了许久。。。
直到有一天我发现了新大陆。
http://m.qichacha.com/
这是企查查的手机端网页。