python爬虫学习笔记二：Requests库详解及HTTP协议

yorkmass☭

于 2018-11-17 21:21:47 发布

阅读量372

点赞数 1

分类专栏： python 文章标签： Requests HTTP 爬虫 get head

本文链接：https://blog.csdn.net/qq_36949176/article/details/83785186

版权

python 专栏收录该内容

26 篇文章 1 订阅

订阅专栏

Requests库的安装：https://mp.csdn.net/postedit/83715574

r=requests.get(url,params=None,**kwargs)

这个r是Response对象

url ：拟获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

Requests库的2个重要对象

Requests库的7个主要方法


方法	说明
requests.request()	构造一个请求，支撑一下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

Response对象包含爬虫返回的内容

Response对象属性：

r.status_code HTTP请求的返回状态，200表示链接成功，404表示失败，返回不为200都是失败的

r.text HTTP响应内容的字符串形式，即url对应的页面内容

r.encoding 从HTTP header中猜测的响应内容编码方式

r.apparent_encoding 从内容中分析出响应内容编码方式（备选编码方式）

r.content HTTP响应内容的二进制形式

理解Requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

理解Response对象非常重要。

理解Requests库的异常，通用代码框架：

r.raise_for_status() 如果不是200，产生异常requests.HTTPError ，用这个结合try catch可以抛出异常，写在try里面，判断网站的响应状态，如果未响应抛出异常，执行catch里面的方法。

import requests
def getHTMLText(url)
    try:
        r=requests.get（url，timeout=30）
        r.raise_for_status()    #如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if _name_=="_main_"：
    url="http://www.baidu.com"
    print(getHTMLText(url))

HTTP协议

url格式：http://host[:port][path]

port：端口号，缺省端口为80

path：请求资源的路径

url是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源