替代模块,比如说urllib模块,但是在工作中用的最多的还是requests模块,requests的代码简洁易懂,相对于臃肿的urllib模块,使用requests编写的爬虫代码将会更少,而且实现某一功能将会简单。因此建议大家掌握该模块的使用。
目录
1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装
2.1 response.text 和response.content的区别:
2.2 通过对response.content进行decode,来解决中文乱码
requests模块
知识点:
-
掌握 headers参数的使用
-
掌握 发送带参数的请求
-
掌握 headers中携带cookie
-
掌握 cookies参数的使用
-
掌握 cookieJar的转换方法
-
掌握 超时参数timeout的使用
-
掌握 代理ip参数proxies的使用
-
掌握 使用verify参数忽略CA证书
-
掌握 requests模块发送post请求
-
掌握 利用requests.session进行状态保持
前面我们了解了爬虫的基础知识,接下来我们来学习如何在代码中实现我们的爬虫
1. requests模块介绍
requests文档http://docs.python-requests.org/zh_CN/latest/index.html
1.1 requests模块的作用:
-
发送http请求,获取响应数据
1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装
-
pip/pip3 install requests
1.3 requests模块发送get请求
需求:通过requests向百度首页发送请求,获取该页面的源码
运行下面的代码,观察打印输出的结果
# 1.2.1-简单的代码实现
import requests
# 目标url
url = 'https://www.baidu.com'
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
print(response.text)
知识点:掌握 requests模块发送get请求
2. response响应对象
观察上边代码运行结果发现,有好多乱码;这是因为编解码使用的字符集不同早造成的;我们尝试使用下边的办法来解决中文乱码问题
# 1.2.2-response.content
import requests
# 目标url
url = 'https://www.baidu.com'
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
# print(response.text)
print(response.content.decode()) # 注意这里!
-
response.text是requests模块按照chardet模块推测出的编码字符集进行解码的结果
-
网络传输的字符串都是bytes类型的,所以response.text = response.content.decode('推测出的编码字符集')
-
我们可以在网页源码中搜索
charset,尝试参考该编码字符集,注意存在不准确的情况
2.1 response.text 和response.content的区别:
-
response.text
-
类型:str
-
解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
-
-
response.content
-
类型:bytes
-
解码类型: 没有指定
-
知识点:掌握 response.text和response.content的区别

本文介绍了Python网络爬虫中常用的requests模块,包括模块作用、安装、发送GET请求、响应对象的处理,如解决中文乱码问题,以及如何携带header、参数、cookie进行请求。通过实例讲解了headers、params、cookies参数的使用方法,帮助初学者掌握requests模块的基本操作。
最低0.47元/天 解锁文章

555

被折叠的 条评论
为什么被折叠?



