requests中的网页请求函数
函数简介
其中,最常用的是get()函数,用于获取网页,返回一个response对象。
常见的几种异常
常用的response对象的属性
其中,text属性返回的是字符串,content返回的是二进制,一般用于图片或者PDF的储存。
encoding属性返回了页面源代码的编码方式,可以通过对其赋值,以便正常处理中文字符。一般写成:
r.encoding = r.apparent_encoding
将抓取的源代码写入文件中,以便后续处理
#完整代码
import requests
r = requests.get('https://www.sdu.edu.cn')
if r.status_code == 200:
with open('example.txt', 'w', encoding = 'utf-8') as f:
f.write(r.text)
else:
print('网页抓取失败!')
如果抓取的是图片,需要用二进制写入
with open('nexample_pic.jpg','wb') as f:
f.write(p.content)
常见的respons对象的方法
其中,json()解析JSON格式的数据,方便处理