一、Requests库入门(学习笔记)
更多的信息可以访问:http://www.python-requests.org
一、安装
打开cmd控制台;
输入命令:pip install requests即可进行安装
尝试后提示没有此命令发现应该要首先下载Python。安装好了python以后就可以安装requests了(虽然有两个WARNING,但是貌似已经安装成功了)
二、主要方法
方法 | 说明 |
---|---|
requests.request() | 构造一个请求,支撑以下各方法的基础方法 |
requests.get() | 获取HTML网页的主要方法,对应于HTTP的GET |
requests.head() | 获取HTML网页头信息的方法,对应于HTTP的HEAD |
requests.post() | 向HTML网页提交POST请求的方法,对应于HTTP的POST |
requests.put() | 向HTML网页提交PUT请求的方法,对应于HTTP的PUT |
requests.patch() | 向HTML网页提交局部修改请求,对应于HTTP的PATCH |
requests.delete() | 向HTML页面提交删除请求,对应于HTTP的DELETE |
说明:除了request()方法是基础外,其余的6个方法都是通过调用requests方法来实现的
Requests库的get()方法
Response对象包含爬虫返回的内容
>>> import requests # 调用requests库
>>> r = requests.get("http://www.baidu.com") # 访问百度的主页
>>> print(r.status_code) # 检测请求的状态码
200
状态码为200,访问成功;反之失败
>>> type(r) # 检测r的类型
<class 'requests.models.Response'>
返回表示r是一个类,这个类的名是Response
>>> r.headers # 返回get请求获得页面的头部信息
'Cache-Control': 'private,no-cache,no-store,proxy-revalidate,ection': 'Keep-Alive', 'Transfer-Encoding': 'chunked', 'server':
Response包含服务器返回的所有信息,同时也包含了我们向服务器请求的request信息
自己尝试:(Python自带的IDLE)
Response对象的属性(最常用、最必要)
属性 | 说明 |
---|---|
r.status_code | HTTP请求的返回状态,200表示连接成功,404表示失败 |
r.text | HTTP响应内容的字符串形式,即,url对应的页面内容 |
r.encoding | 从HTTP header中猜测的响应内容编码方式 |
r.apparent_encoding | 从内容中分析出的响应内容编码方式(备选编码方式) |
r.content | HTTP响应内容的二进制形式 |
r.encoding:如果header中不存在charset,则认为编码为
ISO-8859-1
三、通用代码框架
Requests库的异常
异常 | 说明 |
---|---|
requests.ConnectionError | 网络连接错误异常,DNS查询失败、拒绝连接等 |