爬取顺企网商户联系方式

本文讲述了作者在暑假实习期间使用Python爬虫爬取顺企网企业联系方式的经历,包括如何解决频繁访问限制和图片形式的手机号码识别问题。通过分析网站机制,成功实现了模拟点击跳过验证和通过手机号码在图片URL中的规律直接提取号码。
摘要由CSDN通过智能技术生成

暑假实习的时候,老板让收集北上广深公司的联系方式,最好是email或者手机。鉴于老板不想花钱,就拜托本菜鸟写爬虫,去爬取各色B2B网站企业信息。

现在的时代,数据就是金钱,各大网站是不可能让你轻而易举爬走数据滴,即使这些数据都是开源的。常见的反爬手段包括禁止频繁访问,将手机号码转换成图片显示。有些丧心病狂的网站,反爬工程师每月拿2万大洋,让萌新瑟瑟发抖。


顺企网是个比较有意思的网站(截图如下)(从爬虫角度来说),且听我细细道来。


 

1) 解决频繁访问


博主尝试过每发送一次请求,休息2秒,然而在300-400个请求后被拒绝,爬虫光荣阵亡。出离愤怒的博主,将出错的url通过浏览器访问,返回以下界面。

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值