企业数据多维度抓取

wx15011395541

已于 2022-07-24 16:18:59 修改

阅读量448

点赞数

分类专栏：爬虫文章标签： python 开发语言爬虫数据挖掘人工智能

于 2022-06-18 15:59:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mobaibier/article/details/125347964

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

基于Python爬取企业信息，即根据搜索条件爬取企业页面数据的采集程序。

采用代理、cookie等技术抓取全量的企业300个维度的数据。

程序采用python版本：python2.7；数据库采用：mysql。

程序数据库中所建的表如下：

经营异常

开庭公告

工商注册

分支机构

资质证书

变更记录

客户

一般纳税人

软件著作权

主要人员

失信被执行人

邮箱

扩展信息

企业业务

网站备案

进出口信用

对外投资

竞品信息

行政许可

商标信息

微博

手机号

年报

专利信息

行政处罚

融资历程

股东信息

股权冻结

供应商

税务评级

固定电话

公众号

作品著作权

程序流程如下：

获取采集任务

根据采集任务生成带搜索条件的url

根据url获取结果列表数据

遍历结果列表中的每条数据

采集每条数据的详情信息

采集各个维度子表数据信息

总结：

这里分了四个处理情况：

对于普通无加密接口，这种直接抓包拿到接口的具体请求形式就好了，可用的抓包工具有 Charles、Fiddler、mitmproxy。
对于加密参数的接口，一种方法可以实时处理，例如 Fiddler、mitmdump、Xposed 等，另一种方法是将加密逻辑破解，直接模拟构造即可，可能需要一些反编译的技巧。
对于加密内容的接口，即接口返回结果完全看不懂是什么东西，可以使用可见即可爬的工具 Appium，也可以使用 Xposed 来 hook 获取渲染结果，也可以通过反编译和改写手机底层来实现破解。
对于非常规协议，可以使用 Wireshark 来抓取所有协议的包，或者使用 Tcpdump 来进行 TCP 数据包截获。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
企业数据多维度抓取

这是一个根据搜索条件爬取企业页面数据的采集程序。采用代理、cookie等技术抓取全量的企业300个维度的数据。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。