暑假实习的时候,老板让收集北上广深公司的联系方式,最好是email或者手机。鉴于老板不想花钱,就拜托本菜鸟写爬虫,去爬取各色B2B网站企业信息。
现在的时代,数据就是金钱,各大网站是不可能让你轻而易举爬走数据滴,即使这些数据都是开源的。常见的反爬手段包括禁止频繁访问,将手机号码转换成图片显示。有些丧心病狂的网站,反爬工程师每月拿2万大洋,让萌新瑟瑟发抖。
顺企网是个比较有意思的网站(截图如下)(从爬虫角度来说),且听我细细道来。
1) 解决频繁访问
博主尝试过每发送一次请求,休息2秒,然而在300-400个请求后被拒绝,爬虫光荣阵亡。出离愤怒的博主,将出错的url通过浏览器访问,返回以下界面。