Requests库基础知识

最新推荐文章于 2024-06-28 19:59:34 发布

隔壁王同学m

最新推荐文章于 2024-06-28 19:59:34 发布

阅读量379

点赞数

分类专栏： python爬虫学习笔记文章标签： python

本文链接：https://blog.csdn.net/weixin_40093242/article/details/80039144

版权

python爬虫学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、安装

Windows平台：运行cmd，执行pip install requests

测试(以百度为例）：

import requests
r = requests.get("http://www.baidu.com")
print(r.status_code)

二、Requests库的7个主要方法

1、requests.request() 构造一个请求，支撑以下各方法的基础方法

requests.request(method, url, **kwargs)
method	请求方式，对应get/put/post等7种
url	拟获取页面的url链接
**kwargs	控制访问的参数，共13个

2、requests.get() 获取HTML网页的主要方法，对应于HTTP的GET

（1）r = requests.get(url)

其中r返回一个包含服务器资源的Response对象(Response对象包含服务器返回的所有信息，也包含请求的Request信息)；get()方法构造一个向服务器请求资源的Request对象

response属性
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析出的响应内容编码方式（备选编码方式）
r.content	HTTP响应内容的二进制形式
备注	r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1 r.text根据r.encoding显示网页内容 r.apparent_encoding：根据网页内容分析出的编码方式可以看作是r.encoding的备选

（2）requests.get(url, params=None, **kwargs)

url : 拟获取页面的url链接

params : url中的额外参数，字典或字节流格式，可选

**kwargs: 12个控制访问的参数

（3）get()方法的定义

3、requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD

4、requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST

向URL POST一个字典自动编码为form（表单），向URL POST一个字符串自动编码为data，如图：

5、requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT

6、requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH

7、requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

三、爬虫代码的通用框架

1、requests库异常

requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

2、response的异常

r.raise_for_status()

如果不是200，产生异常 requests.HTTPError

r = requests.get(url)
r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要增加额外的if语句，该语句便于利用try‐except进行异常处理

3、爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()  #如果状态值不是200，则引发HTTPError
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ = "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

四、HTTP协议

HTTP，Hypertext Transfer Protocol，超文本传输协议
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议 HTTP协议采用URL作为定位网络资源的标识，URL格式如下：http://host[:port][path]

host: 合法的Internet主机域名或IP地址

port: 端口号，缺省端口为80

path: 请求资源的路径

HTTP URL实例：http://www.bit.edu.cn http://220.181.111.188/duty
HTTP URL的理解： URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源

HTTP协议对资源的操作
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源