requests不能访问_Requests爬取某查查网站信息数据（1）

最新推荐文章于 2023-11-23 15:28:06 发布

weixin_39974030

最新推荐文章于 2023-11-23 15:28:06 发布

阅读量345

点赞数

文章标签： requests不能访问

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39974030/article/details/111613976

版权

本文介绍了如何使用Python的requests和BeautifulSoup库模拟登陆企查查网站，通过抓取网络请求信息处理Cookie，进行网页元素定位，获取企业数据。在解析页面源码时，重点讲解了如何提取所需信息并存储为字典。文章还强调了爬虫的道德规范，建议适当控制爬取速度，尊重网站的反爬虫策略。

摘要由CSDN通过智能技术生成

作为销售管理，经常需要核对企业名称是否规范，查询校验企业统一信用代码，校验行业分类，判断企业规模，是否正确等等。因此，希望能有个自动化工具获取数据，并规范化后作为进一步数据分析的基础。

需要特别说明的是，X查查，XX宝，X眼查，都有VIP账户，或者专门的API查询，接口，收费也不贵，如果有大批量的需求，还是申请专门的接口，一来稳定，二来省事。经常走小门，在这里也得给大门打打广告，以下内容，主要探讨技术。

爬虫的基础知识网上一大堆，不多讲，提前需要准备的知识（打开对应的帮助教程）有:

一点点HTML，CSS, Javascript（大约看懂网页就行，又不用自己写网页）
Python基础
爬虫的基本原理
对应的库的使用文档
最好在有点数据库的知识，这样比较方便操纵数据

其他不展开了，大概介绍下爬虫的原理。我们平时浏览网页的过程，可以分解成以下动作：

输入网址并登陆
服务器返回页面信息给浏览器
1. 如果是静态页面，就是固定的一长串字符串，现在也没啥静态页面了吧。
2. 如果是动态页面，返回得字符串会根据不同的输入返回不同的字符串。
网页浏览器会根据返回的页面信息，按照html, CSS和Javascript的语法渲染成我们看到的网页。

爬虫就是模拟人来操作上面这个动作。

主要是两个手段：

用Selenium库运行一个IE或者Chrome或者无头浏览器，然后查找定位自己需要的网页元素操作浏览器的动作。
用requests库发送请求，直接或者服务器返回的数据，然后获取想要的代码。

第一种方法比较慢，而且也许是我的代码写的不太好，总觉得不太稳定，此外，只能运行在桌面环境下。我以前实现过一个版本，有兴趣有时间再开一篇文章介绍。第二种方法，比较快，参数设置合理的化也比较稳定。这篇文章主要讲第二种。

用到的主要的库有：

最低0.47元/天解锁文章

weixin_39974030

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。