还是今年暑假实习,老板让爬公开的企业联系方式数据,还对天眼查这个网站青眼有加。大家都知道,从不知什么时候开始,政府的企业信用公开平台采取了反爬措施,每次搜索都需通过机器人验证,而很多其他的企业信息公开平台(如天眼查等)都是在这之前从政府网站爬取数据的。
于是乎,博主开始勤勤恳恳撸代码马上百度一下,看看哪位大牛已经成功爬取天眼查并大公无私地分享了自己的代码。一般出名网站如58同城,百度地图都有大把成功先例,天眼查也不例外。博主搜索到如下资源(博主不生产代码,只是代码的搬运工,请叫我雷锋):
1/ Github上天眼查爬虫项目
https://github.com/guapier/tianyancha(关键词:phantomjs,xpath)
https://github.com/felixglow/Tianyancha(关键词:scrapy)
https://github.com/haijunt/tianyancha_example(关键词:scrapy, splash)
https://github.com/kestiny/PythonCrawler(关键词:phantomjs)
2/ 各类博客
https://ask.hellobi.com/blog/jasmine3happy/6200(关键词:selenium, phantomjs)