node.js 爬虫 登录验证码_企查查爬虫

本文介绍了如何使用Node.js进行企查查网站的爬虫,包括利用Python Selenium模拟登录、处理手机端URL的MD5加密、解决反爬虫策略,以及应对验证码的方法。通过访问企查查主页并拖动验证码来突破限制。
摘要由CSDN通过智能技术生成

链接:https://pan.baidu.com/s/14OMqMjZPeMum8JKfajXZZA

提取码:ma5v

伸手党的福利,这是爬虫的文件,运行qcc.py,另个py文件是用来拖动验证码的。程序需要输入的是一个公司名称的列表文件,由于我也是初学,所以程序写的一般,大家凑合看吧。

下面是爬虫的相关背景以及思路介绍:

同学在证券公司上班,需要企查查的一些信息,他给了我一个公司名称的表格,找我帮忙做一个公司信息的表格,我觉得可以用爬虫解决这个问题,就写了这个程序。

爬虫首先就是看一下网站的结构,随便打开一个企业详情:

aa7723cb5ac0e3be5fd2934bde3bcdd2.png

电脑端网页

华为技术有限公司

电话和邮箱信息都被隐藏了,必须登录才能展示,于是乎,我用Python+selenium写了很多模拟登录的代码,各种跳转,最后使用微博登录(很多爬虫都是这么干的)。写完了发给同学,账号登录就算登录上也不稳定,在我电脑上没毛病的,到他那一堆毛病。电话和邮箱依旧不好使。

此事搁置了许久。。。

直到有一天我发现了新大陆。

http://m.qichacha.com/

这是企查查的手机端网页。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值