requests模块
requests介绍,安装
1,requests的作用
- 作用 : 发送网络请求,返回响应数据
对于爬虫任务,使用request模块基本能够解决绝大部分的爬取数据的任务所以用好request至关重要
2,安装
- 安装命令 :
pip install requests
request发送get请求
1,requests发送get的demo
- 需求 : 通过requests向百度首页发送请求,获取百度首页的数据
import requests
url = 'https://www.baidu.com'
r = requests.get(url=url)
print("---状态码如下---")
print(r.status_code)
print("---bytes类型数据:---")
print(r.content)
print("---str类型数据---")
print(r.text)
print("---str类型数据(utf-8)---")
print(r.content.decode("utf-8"))
2,response的常用属性
- r.text 响应体str类型
- r.content 响应体bytes类型
- r.status_code 响应状态码
- r.request.headers 响应对应的请求头
- r.headers 响应头
- r.request.cookies 响应对应请求的cookie
- r.cookies 响应的cookie
- r.url 请求的url
- r.encoding = “utf-8” 编码
- r.content.decode(“utf-8”) 解码
练习:下载网络图片
步骤:
- 通过分析获得图片的url
- 利用requests模块发送请求获取响应
- 以二进制写入的方式打开文件,并将响应的二进制内容写入
import requests
# 图片的url
url = 'https://ywww.baidu.com/img/bd_logo1.png'
# 响应本身就是一个图片,并且是二进制类型
r = requests.get(url)
# print(r.content)
# 以二进制+写入的方式打开文件
with open('baidu.png', 'wb') as f:
# r.content bytes二进制类型
f.write(r.content)
iter_content
1,介绍
如果下载一个较大的资源,例如一个视频,可能需要的下载时间较长,在这个较长的下载过程中程序是不能做别的事情的(当然可以使用多任务来解决),如果在不是多任务的情况下,想要知道下载的进度,此时就可以通过类似迭代的方式下载部分资源,这就iter_content
2,iter_content怎样用
1,使用iter_content的流程
在获取数据时,设置stream=True
例如:
r = requests.get(“https://www.baidu.com”,stream=True)
使用demo:
with open("test.html", 'wb') as fd:
for chunk in r.iter_content(chunk_size=100):
fd.write(chunk)
2,stream=True说明
- 如果设置了stream=True,那么什么时候要获取这个数据内容,才会真正的开始下载
- 如果不设置stream=True,那么在调用resquests.get时,就会耗费时间下载
import requests
# 定义了一个变量,存储了视频URL
video_url = ""
# 如果不设置stream=True,那么在调用resquests.get时,就会耗费时间下载
# r = requests.get(url=video_url)
# 而当stream=True时,什么时候要获取这个数据内容,才会真正的开始下载
r = requests.get(url=video_url, stream=True)
练习:下载视频时显示进度
import requests
# 视频文件URL
url = ""
# 发送请求
r = requests.get(url=url, stream=True)
reponse_body_lenth = int(r.headers.get("Content-Length"))
print("body的数据长度为:", reponse_body_lenth)
# 获取响应内容存储到文件
with open("xxx.mp4", 'wb') as fd:
write_length = 0
for chunk in r.iter_content(chunk_size=100):
write_length += fd.write(chunk) # write的返回值为写入到文件内容的多少
print("下载进度: %02.2f%%" % (100 * write_length / reponse_body_lenth))
效果:
文章仅供学习参考