qcc信息爬虫获取（亲测有效）

最新推荐文章于 2024-06-07 09:46:02 发布

CSDNxiaozhi

最新推荐文章于 2024-06-07 09:46:02 发布

阅读量2.5k

点赞数

分类专栏： python 文章标签： python xpath

本文链接：https://blog.csdn.net/CSDNxiaozhi/article/details/109316561

版权

本文提供了一个使用Python爬取企查查网站企业信息的代码实例，包括设置不同User-Agent，处理HTTP请求，解析HTML并提取关键信息如企业名称、社会信用代码、经营范围和负责人。

摘要由CSDN通过智能技术生成

废话不多说，直接上主题：
如果说有什么问题的话，可能就是文字与URL的转换区别

userAgent = [
“Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0”,
“User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11Opera 11.11”,
“User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11”,
“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1”,
“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36”,
“Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11 “,
“User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)”,
“User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)”
]
all_company = {}
from urllib.parse import quote
def qcc(company):
“””
返回工商企查查内企业的联系信息以及工商信息
:param company: 公司名称
:return:
“””
url = ‘https://www.qcc.com/search?’
param = {
‘key’: str(company)
}
headersq = {
‘accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9’,
‘accept-encoding’: ‘gzip, deflate, br’,
‘accept-language’: ‘zh-CN,zh;q=0.9’,
‘cookie’: ‘QCCSESSID=5ga2utmd682r6a6mki6v2i7p10; UM_distinctid=1753fc26d09412-0de8e6260c0ed5-333376b-1fa400-1753fc26d0a595; zg_did

最低0.47元/天解锁文章

CSDNxiaozhi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
qcc信息爬虫获取（亲测有效）

废话不多说，直接上主题：如果说有什么问题的话，可能就是文字与URL的转换区别userAgent = [“Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0”,“User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11Opera 11.11”,“User-Agent:
复制链接

扫一扫

专栏目录