第一:去官网,数据最新,最权威
这个页面大家很熟悉,我们看了两眼,果断放弃
1:数据响应太慢,已经被大公司爬的无法正常访问了
2:有一定的图片反爬,人力物力投入比很低,放弃
第二:各大三方网站,TYC为例
他们的反爬主要 三种:
1:没有地方显示全部数据,主要以 关键词搜索为主,这样就在 根本上 防止了 全量数据的展示,即使没反扒,你也拿不到全量
2:只显示前几页,继续浏览需要,登录账号。。。这就更绝了,需要大量账号注册,成本一下子上来了
3:字体反爬,验证码反爬,cookie校验。。。这些人工费点时间还可能突破;但是前两条直接让成本剧增
第三:统一社会信用代码
什么是社会统一信用代码,统一社会信用代码查询_诚信体系实名制查询_组织机构代码-全国组织机构统一社会信用代码数据服务中心(原全国组织机构代码管理中心)
去官网看一下,10分钟就了解了,一句话 就是 工商的唯一id,几乎所有平台都支持社会统一信用代码的搜索,也就是说你有了全量社会统一信用代码,再去平台搜索,加个