怎么爬取全量企业工商数据(思路)

第一:去官网,数据最新,最权威
在这里插入图片描述

这个页面大家很熟悉,我们看了两眼,果断放弃

1:数据响应太慢,已经被大公司爬的无法正常访问了

2:有一定的图片反爬,人力物力投入比很低,放弃

第二:各大三方网站,TYC为例

他们的反爬主要 三种:

1:没有地方显示全部数据,主要以 关键词搜索为主,这样就在 根本上 防止了 全量数据的展示,即使没反扒,你也拿不到全量

2:只显示前几页,继续浏览需要,登录账号。。。这就更绝了,需要大量账号注册,成本一下子上来了
在这里插入图片描述

3:字体反爬,验证码反爬,cookie校验。。。这些人工费点时间还可能突破;但是前两条直接让成本剧增

第三:统一社会信用代码

什么是社会统一信用代码,统一社会信用代码查询_诚信体系实名制查询_组织机构代码-全国组织机构统一社会信用代码数据服务中心(原全国组织机构代码管理中心)

去官网看一下,10分钟就了解了,一句话 就是 工商的唯一id,几乎所有平台都支持社会统一信用代码的搜索,也就是说你有了全量社会统一信用代码,再去平台搜索,加个

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值