基于Python爬取企业信息,即根据搜索条件爬取企业页面数据的采集程序。
采用代理、cookie等技术抓取全量的企业300个维度的数据。
程序采用python版本:python2.7;数据库采用:mysql。
程序数据库中所建的表如下:
经营异常 |
开庭公告 |
工商注册 |
分支机构 |
资质证书 |
变更记录 |
客户 |
一般纳税人 |
软件著作权 |
主要人员 |
失信被执行人 |
邮箱 |
扩展信息 |
企业业务 |
网站备案 |
进出口信用 |
对外投资 |
竞品信息 |
行政许可 |
商标信息 |
微博 |
手机号 |
年报 |
专利信息 |
行政处罚 |
融资历程 |
股东信息 |
股权冻结 |
供应商 |
税务评级 |
固定电话 |
公众号 |
作品著作权 |
程序流程如下:
获取采集任务
根据采集任务生成带搜索条件的url
根据url获取结果列表数据
遍历结果列表中的每条数据
采集每条数据的详情信息
采集各个维度子表数据信息
总结:
这里分了四个处理情况:
- 对于普通无加密接口,这种直接抓包拿到接口的具体请求形式就好了,可用的抓包工具有 Charles、Fiddler、mitmproxy。
- 对于加密参数的接口,一种方法可以实时处理,例如 Fiddler、mitmdump、Xposed 等,另一种方法是将加密逻辑破解,直接模拟构造即可,可能需要一些反编译的技巧。
- 对于加密内容的接口,即接口返回结果完全看不懂是什么东西,可以使用可见即可爬的工具 Appium,也可以使用 Xposed 来 hook 获取渲染结果,也可以通过反编译和改写手机底层来实现破解。
- 对于非常规协议,可以使用 Wireshark 来抓取所有协议的包,或者使用 Tcpdump 来进行 TCP 数据包截获。