一、语法requests.get(url,params=None,**kwargs)
url:拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数。
import requests
r = requests.get("http://www.baidu.com")
print(r.status_code) #结果放回是200说明获取成功
tpye(r) #查看r的类型,结果requests.models.Response
r.headers #查看r的头部信息
response对象的属性:
r.status_code :HTTP请求的返回状态,200表示连接成功,404表示失败。
r.text:HTTP响应内容的字符串形式,即url对应的页面内容。
r.encoding:从HTTP header中猜测的响应内容编码方式。如果header中不存在charset,则认为编码为ISO-8859-1(不能解析中文,改为utf-8即可显示中文)。
r.apparent_encoding:从内容中分析出的响应内容编码方式。
r.content:HTTP响应内容的二进制形式。
二、爬取网页的通用代码框架
理解requests库的异常:
requests.ConnectionError:网络连接错误异常,如DNS查询失败、拒绝连接等。
requests.HTTPError:HTTP错误异常。
requests.URLRequired:URL缺失异常。
requests.TooManyRedirects:超过最大重定向次数,产生重定向异