国家企业信用信息公示系统爬取

国家企业信用信息公示系统爬取

前言

具体的分析爬取过程这边就直接省略了,不会分析的小伙伴直接百度下,网上有很多介绍细节的,我这边只要把我爬取中重要的几个环节写一下,加深下记忆,也给大家一个参考。
声明:我的爬虫程序是用C#写的,还有滑动和点序验证码直接对接的是第三方接口完成。

反爬背景

企业国家企业信用信息公示系统出现了大量反爬技术手段使得爬取网站信息变得非常困难,具体的反爬手段包括:加密混淆的js文件,IP封锁,验证码识别(滑动和语序点击并存),useragent检查,多重url拼接cookie等。
在这里插入图片描述在这里插入图片描述在这里插入图片描述

测试

  1. 公司ip(多次访问后):查询界面出现语序验证码,多次之后被封ip(404报错);
  2. 代理ip1,2,3规律:第一次查询无需验证码,之后是滑动验证码和语序验证码交替出现。大概30次左右:只出现语序验证码;(每次验证码成功解开再次查询又会出现无需验证码的情况,次数在0-3次之间)
  3. 特殊情况:
    1.同一个ip火狐被封,谷歌没被封。
    2.正常访问网站会出现521报错,刷新不出数据,空白页的情况

爬取策略

绕开验证码直接对接验证码的接口,然后直接封装需要的cookie进行伪装访问列表界面,解析出企业详情页的链接,然后依次去下载。

具体流程

1. 访问http://www.gsxt.gov.cn/SearchItemCaptcha获取名为__jsluid的cookie值和加密的JS然后通过两次解密JS获取名为__jsl_clearance的cookie值。
2. 用第1步的两个cookie值再次访问http://www.gsxt.gov.cn/SearchItemCaptcha,得到名为SECTOKEN,JSESSIONID,tlb_的cookie值和challenge、gt两个参数。
3. 发送第2步的challenge,gt参数到验证码识别接口,获取validate参数(调用的是外部的验证码接口)。
4. 访问http://www.gsxt.gov.cn/corp-query-custom-geetest-image.gif?v=54,V(参数是当前时间分钟和秒的累加数),得到ASCII码的JS语句,解析JS语句得到参数location_inf。
5. 访问http://www.gsxt.gov.cn/corp-query-geetest-validate-input.html?token=(参数是第4步的location_inf)得到ASCII码的JS语句,解析JS语句得到参数token
6. 拼接以上获得的参数,tab参数固定、province参数为空即可、其他参数填入前面动态获取的数据即可。
postData={ ‘tab’:‘ent_tab’, ‘province’:’’, ‘geetest_challenge’:challenge, ‘geetest_validate’:validate], ‘geetest_seccode’:validate+’|jordan’, ‘token’:token, ‘searchword’:keyword }
访问http://www.gsxt.gov.cn/corp-query-search-advancetest.html提交post请求获取列表页面拿到需要的公司的各个详情页链接。
7. 带着所有cookie去访问第6步的详情页链接抓取到需要的内容。

流程图

在这里插入图片描述
具体的代码就不贴了,太繁了。

效果图

在这里插入图片描述
平时不怎么上CSDN,这次上来看到好几个同学让我发代码,我也不一一发了,自己去下吧,供大家参考的小demo。
https://download.csdn.net/download/huanxiao8512/11191333添加链接描述

资源被CSDN官方删掉了,理由是违规,我换个地方,这个是19年的demo,需要的自己去下吧!https://item.taobao.com/item.htm?ft=t&id=618712985216

,从数据采集、人工标注、模型构建、训练和验证的过程,最终构建形成demo演示 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
### 回答1: 我可以提供一些有关爬取企业工商信息的建议:1. 使用 Python 的 Requests 库来请求企业工商信息的网页;2. 使用 Python 的 Beautiful Soup 库来解析网页;3. 使用 Python 的 Pandas 库来处理数据并提取你想要的信息;4. 使用 Python 的 Selenium 库来处理动态网页,以便获取更多的信息。 ### 回答2: Python 是一种功能强大的编程语言,它具有丰富的库和工具,可以用来爬取企业工商信息。 在爬取企业工商信息之前,我们首先需要确定要爬取网站。可以选择一些官方的工商信息查询网站,例如国家企业信用信息公示系统全国企业信用信息公示系统等。这些网站都提供了查询企业工商信息的功能。 接下来,我们需要使用 Python 的网络爬虫工具,例如 BeautifulSoup、Scrapy 等。这些工具可以帮助我们解析网页的结构和内容,从而提取我们需要的工商信息。 具体操作步骤如下: 1. 使用网络爬虫工具获取工商信息查询网站的 HTML 页面。 2. 利用工具解析 HTML 页面,定位到包含企业工商信息的标签,例如公司名称、注册资本、法定代表人等。 3. 提取所需的企业工商信息,并储存在合适的数据结构中,例如列表、字典等。 4. 可以选择将信息存储到数据库或者文件中,方便后续的分析和使用。 需要注意的是,爬取企业工商信息可能涉及到法律和隐私等问题,因此在爬取过程中需要遵守相关法律法规,确保信息安全和合法性。 使用 Python 爬取企业工商信息,可以方便快捷地获取大量的企业信息。而且由于 Python 语言简洁易学、库资源丰富,爬取企业工商信息的过程也相对简单。但是在实际操作中,可能会遇到验证码、反爬虫策略等问题,需要进一步的技术和方法来应对。
评论 56
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值