小白入门python网络爬虫和信息提取（一）——requests库入门

最新推荐文章于 2023-11-14 07:43:39 发布

int_Brosea

最新推荐文章于 2023-11-14 07:43:39 发布

阅读量567

点赞数 1

分类专栏： python 文章标签： python基础

本文链接：https://blog.csdn.net/int_Brosea/article/details/83657268

版权

本文是小白入门python网络爬虫的第一篇，主要介绍requests库的使用，包括安装、向服务器发起请求、处理响应数据、常见HTTP状态码、编码方式、实例演示及异常处理。通过实例展示了如何请求网页、设置HTTP头模拟浏览器访问以及使用参数传递数据。

摘要由CSDN通过智能技术生成

小白入门python网络爬虫和信息提取（一）——requests库入门

第一次写CSDN的博客，正好这两天自己的兴趣突然产生了，自己摸索着学了一点网络爬虫的东西，写篇博客试一下。主要是课上学的都是C语言，C++面向对象…所以课下就想自己学学python，觉得蛮好玩的，练习网络爬虫的时候顺便也当学习一下python的基础语法吧。
学了一段时间的爬虫，觉得网络爬虫就像浏览器访问网站一样，只不过浏览器是为了将网站服务器返回的数据转化为人类看的网页内容，而爬虫则是为了爬取并提取网页的信息。人类看的是图象，而爬虫看的是文本。

首先安装requests库：

windows系统下按Win+R 输入cmd启动命令行解释器输入pip install requests
将自动安装requests库

用requests库向服务器发起请求:

Requests是一个自动向网页发起请求的工具
可以使用这个工具向网站服务器发起请求
主要使用的函数接口是：

r = requests.get(url,params=None,**kwargs)

其中：
url : 拟获取页面的URL链接
params : url中的额外参数，字典或者字节流格式（可选）
**kwargs : 13个控制访问的参数（可选）
返回的对象类型为<class 'requests.models.Response'>

Requests库还提供了一共七种请求方法：

request get head post put patch delete

而第一种requests.request是Requests库提供的最基础的访问请求方式，后六种均是对request方法的不同封装。与之对应的是HTTP对资源的六种操作：
GET:请求资源
HEAD:请求相应信息报告，获取头部信息
POST:附加新的数据
PUT:储存一个资源，覆盖原URL位置的资源
PATCH:请求局部更新资源即改变部分内容
DELETE:请求删除资源

处理请求得到的数据：

一、首先，检查服务器响应的结果：
r.status_code检查HTTP返回的状态，只有当返回值为200时才说明成功获得响应。

>>> r.status_code
200
>>> r.url	#查看真实访问的链接

其他的返回值所反映的错误提示，可以搜索引擎一波：

常见的状态代码：
200 – 服务器成功返回网页
404 – 请求的网页不存在
503 – 服务器暂时不可用
–
1xx：请求收到，继续处理
2xx：操作成功收到，分析、接受
3xx：完成此请求必须进一步处理
4xx：请求包含一个错误语法或不能完成
5xx：服务器执行一个完全有效请求失败

二、查看编码方式：

>>> r.encoding	#从HTTP header中猜测的响应内容的编码方式
'ISO-8859-1'
>>> r.apparent_encoding	#从内容中分析出的响应内容的编码方式（备选编码方式）
'utf-8'

如果HTTP返回信息的header.charset里告诉了建议的编码方式，则encoding中是给出的建议编码方式，如果没有默认的是ISO-8859-1编码。
而apparent_encoding中的是requests库根据内容推测出的编码方式，一般较准确。所以这个地方我们可以直接采用推测出的编码方式：