python爬虫学习第一节：获取数据

最新推荐文章于 2024-02-20 16:21:21 发布

_斑

最新推荐文章于 2024-02-20 16:21:21 发布

阅读量262

点赞数

分类专栏： python学习爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_43132653/article/details/113441590

版权

python学习同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

1：浏览器工作原理：我们输入要访问的网址（URL）-浏览器向服务器发出请求，服务器响应浏览器，把数据给浏览器，浏览器再解析数据，然后返回给我们，我们提取自己需要的数据，然后存储起来，这就是整个流程在这里插入图片描述
2：爬虫的工作原理：爬虫向浏览器发起请求，浏览器返还数据给爬虫，爬虫解析数据，解析数据，提取数据，存储数据

在这里插入图片描述

第一步：获取数据：爬虫程序根据我们提供的网址，向服务器发起请求，然后返回数据
第二步：解析数据：爬虫程序把服务器返回的数据解析成我们能读懂的格式
第三步：提取数据：爬虫程序从解析的数据中提取出我们需要的数据
第四步：储存数：爬虫程序把提取到的数据储存到我们指定的位置，方便我们日后使用
3：如何获取数据：需要用到requests库的requests.get()方法，代码结构为; 在这里插入图片描述
这里获得的数据是response这个类的实例对象，当我们获得一个数据的时候，只有知道这个数据是什么对象，才能知道他又那些属性和方法，才方便调用他的属性和方法
4:Response 对象的常用属性
其中responese.status_code是用来检查我发起的请求是否成功，代码结构为：在这里插入图片描述
检测返回的数值代表了不同的状态，如果返回200，表明我们发起的请求成功了

这个属性以后会经常用，非常重要
responses.content,该属性的作用是把数据以二进制的形式返回，适用于下载音视频，图片这类文件，代码结构为
在这里插入图片描述
responses.text这个属性的作用是把获得的数据以字符串的形式返回，适用于下载文本文件，代码结构为
responses.encoding,这个属性是为了接近假如我们获取到的数据是乱发的情况下的时候，强行的给数据定义一个变法，以便转换成我们需要的数据，代码格式为：在这里插入图片描述
5：responses对象的属性总结
到这里，我们就完成了爬虫的第一步，获取数据

_斑

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习第一节：获取数据

1：浏览器工作原理：我们输入要访问的网址（URL）-浏览器向服务器发出请求，服务器响应浏览器，把数据给浏览器，浏览器再解析数据，然后返回给我们，我们提取自己需要的数据，然后存储起来，这就是整个流程 2：爬虫的工作原理：爬虫向浏览器发起请求，浏览器返还数据给爬虫，爬虫解析数据，解析数据，提取数据，存储数据第一步：获取数据：爬虫程序根据我们提供的网址，向服务器发起请求，然后返回数据第二步：解析数据：爬虫程序把服务器返回的数据解析成我们能读懂的格式第三步：提取数据：爬虫程序从解析的数据中
复制链接

扫一扫