如何采集企业信息公示系统

       全国企业信息公示系统是企业、个体在工商局备案信息的公示平台。平台的反爬虫策略很严格,下面介绍一下如何通过使用ForeSpider爬虫软件批量采集企业信息公示系统。

       一.省份情况分类

       通过逐一采集全国31个省份发现,各省份的状况如下。

1.通过Cookie、jsessionid、日期与验证机制关联的省份:

省份:北京、天津、江苏、浙江、陕西、内蒙古、重庆、新疆、河南、湖南、河北、陕西、吉林、黑龙江、上海、江西、安徽、山东、广西、海南、四川、贵州、云南、西藏、甘肃、宁夏、青海。

定制状况:无需定制,可以直接采集。

2.动态加密的省份:

省份:广东。

定制状况:需要定制,解决验证码识别限时的问题。

3.frame:

省份:福建、辽宁。

定制状况:需要定制,动态JS生成的验证机制需要进一步解析。

4.密码盘的验证机制:

省份:湖北。

定制状况:可以实现手工识别采集,不需要定制。如果想实现机器识别需要自行解决验证码问题。


       二.下载安装工具

       百度“ForeSpider”,可以下载。安装后登录,账号密码是在“前嗅”官网注册时填写的。也可以不输入账号密码直接登录,但是不注册是不能够采集的,只可以进行配置。


       三.测试过程

       以天津为例,通过人工识别验证码方式进行测试。


1.配置企业名称的关键词


2.配置模板一的链接抽取



3.配置模板二的链接抽取



4.配置模板二的链接脚本



5.配置模板三的链接抽取



6.配置模板四的数据抽取



7.验证码人工识别



8.数据采集



9.数据浏览


       四.测试结果

       测试过程的验证码识别采用了人工识别的方式,将测试过程分为验证码识别和采集过程。

       1.验证码识别

在一台计算机上测试,由于涉及到Cookie验证,验证码识别只能开启单线程。单线程人工识别20分钟,识别480了个验证码。

若需求方有多台计算机,识别过程可以多线程。加快识别速度。

       2.采集过程

采集过程启用一台计算机,开启了10个线程。如果需求方的硬件配置较好,可以开启100个线程左右。

经过采集,1000s内采集到共6410个链接(与数据相关及无关的链接总数),2423条数据(每条数据对应一个企业的信息)。

       即:在使用一台计算机,开启10个线程的情况下:

       1000秒--6410个链接--2423条数据

       1小时--23076个链接--8723条数据

       24小时--553824个链接--209347条数据


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值