python数据采集（requests+）

最新推荐文章于 2024-07-30 17:23:09 发布

xujingsen521

最新推荐文章于 2024-07-30 17:23:09 发布

阅读量4.7k

点赞数 7

分类专栏： py学习笔记文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58461769/article/details/124275778

版权

py学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

在开始数据采集之前，需要了解的知识：

采集的本质就是通过调用网页或者接口请求到数据。

在采集的过程中，我们常常需要对程序进行伪装才可以进行完整的采集。

python采集涉及到的热门框架：scrapy，selenium，beautifulSoup，requests，pySpider等等。

无论用到的框架和库有多少，本质流程就是，伪装>获取>解析>处理数据

一、requests

直接从最基础的requests库开始说起，以不注重防爬策略的网站来说，都是直接使用requests库进行调用即可，

如果网站做了种种策略，熟悉http协议的话，直接代码封装需要给对方服务器看的请求信息即可。

使用最基础的代码和使用框架和库的区别也只是在于需要自己封装的代码的多少。

requests库不做过多介绍，既然讲的是数据采集，那么没必要去分析库中代码构成。

二、解析网页源代码

我们在获取到requests请求到的响应体之后，(通常是访问网页的地址，或者直接访问网页的接口)

需要对响应体进行解析，如果是访问的网页地址的话，那么会获取到网页源代码(如果不是用ajax动态渲染的话)，我们需要对网页源代码进行解析，之后获取到我们真正想要的数据。

在日常中我们访问网页的时候，就可以打开浏览器自带的http抓包工具(开发者调试工具)，可以通过Elements查看网页的源代码，而要解析html的话，如果是原始的方式的话，我们将html看作是一大长串的字符串，那么要获取到特定的数据，就使用正则表达式。

但是正则会有回溯问题，我们可以通过xpath以及css选择器的库或者框架，来进行html的解析工作。

对于数据采集来说，xpath和css选择器是必学的解析html手段，所以是逃不过这两样的。

总结

在计算机中学习新知识新领域的时候，最先关注的应该是为什么需要学，学了之后能做什么，以及核心思想。使用的编程语言，代码，框架和库，不过是手段而已。

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python数据采集（requests+）

前言在开始数据采集之前，需要了解的知识：采集的本质就是通过调用网页或者接口请求到数据。在采集的过程中，我们常常需要对程序进行伪装才可以进行完整的采集。python采集涉及到的热门框架：scrapy，selenium，beautifulSoup，requests，pySpider等等。无论用到的框架和库有多少，本质流程就是，伪装>获取>解析>处理数据一、requests直接从最基础的requests库开始说起，以不注重防爬策略的网站来说，都是直接使用reque..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。