目录
2.Requests库最常用的方法:requests.get()
(3)核心方法:requests.request( method, url, **kwargs)
第一章 Requests库
相关介绍:http://www.python-requests.org
1.Requests库的安装
cmd中,运行命令:pip install requests
2.Requests库最常用的方法:requests.get()
r = requests.get(url) 获得网页
requests.get(url) 构造了一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象给r
完整函数:requests.get( url, params = None, **kwargs),后面两个参数可选
3.Response对象的属性
r.status_code | HTTP请求的返回状态,200成功,其他失败 |
r.text | url对应的页面内容,以字符串形式呈现 |
r.encoding | 网页的编码方式,从网页header中猜测出来的编码方式 |
r.apparent_encoding | 备用编码方式,从网页内容中分析出来 |
r.content | url对应的页面内容,以二进制形式呈现 |
注: r.encoding:如果header中没有charset字段,则认为编码方式为ISO-8859-1,但这个编码并不能解析中文
4.爬取网页的通用代码框架
(1)Requests库的异常
requests.ConnectionError | 网络连接错误异常 |
requests.HTTPError | HTTP错误异常 |
requests.URLRequired | URL缺失异常 |
requests.TooManyRedirects | 超过最大重定向次数,重定向异常 |
requests.ConnectTimeout | 连接远程服务器超时异常 |
requests.Timeout | 请求URl超时,产生超时异常 |
Response对象提供了一个判断异常的方法&#x