网络爬虫学习-Ruquests

最新推荐文章于 2023-11-16 11:27:45 发布

山外青山楼外你

最新推荐文章于 2023-11-16 11:27:45 发布

阅读量270

点赞数 1

分类专栏：网络爬虫文章标签： python

本文链接：https://blog.csdn.net/Wang_87_76/article/details/119464959

版权

网络爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

网络爬虫学习-Ruquests

Requests库学习

pip install requests：下载requests库
基础使用

`import requests
def gethttp(url):
    try:
         r=requests.get(url)# get()方法获取网页内容
         r.encoding='utf-8'
         return r.text
    except:
        return 'error'

url="http://wwww.baidu.com"
gethttp(url)`

一、get方法说明

requests.get(url, params=None, **kwargs)
∙ url : 拟获取页面的url链接
∙ params : url中的额外参数，字典或字节流格式，可选
∙ **kwargs: 12个控制访问的参数

二、常用方法

requests.request() 构造一个请求，支撑以下各方法的基础方法
requests.get() 获取HTML网页的主要方法，对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求，对应于HTTP的DELETE

三、Requests库的两个重要对象

在这里插入图片描述

四、reponse对象的属性

属性说明
r.status_code ： HTTP请求的返回状态，200表示连接成功，404表示失败
r.text ： HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding ：从HTTP header中猜测的响应内容编码方式
r.apparent_encoding ：从内容中分析出的响应内容编码方式（备选编码方式）
r.encoding：如果header中不存在charset，则认为编码为ISO‐8859‐1，
r.text根据r.encoding显示网页内容
r.apparent_encoding：根据网页内容分析出的编码方式，可以看作是r.encoding的备选
r.content： HTTP响应内容的二进制形式

五、异常

这里有一个方法

r.raise_for_status() 如果不是200，产生异常 requests.HTTPError
r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要
增加额外的if语句，该语句便于利用try‐except进行异常处理

六、方法详解

1.requests.head() 方法

 r = requests.head('http://httpbin.org/get')
  r.headers//用来显示网页的head内容

2.requests.post() 方法

requests.post(url, data=None, json=None, **kwargs)、
∙ url : 拟更新页面的url链接
∙ data : 字典、字节序列或文件，Request的内容
∙ json : JSON格式的数据，Request的内容
∙ **kwargs: 12个控制访问的参数

r = requests.post('http://httpbin.org/post', data = 'ABC')
print(r.text)#post方法传入数据data,自动放入form字段之下
{ ...
"data": "ABC"
"form": {},
}
#向URL POST一个字符串自动编码为data

3.requests.put() 方法

requests.put(url, data=None, **kwargs)
∙ url : 拟更新页面的url链接
∙ data : 字典、字节序列或文件，Request的内容
∙ **kwargs: 12个控制访问的参数

> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.put('http://httpbin.org/put', data = payload)
>>> print(r.text)#form中添加，但会将原有数据覆盖掉
{ ...
"form": {
"key2": "value2",
"key1": "value1"
},
}

4.requests.get() 方法

requests.get(url, params=None, **kwargs)
∙ url : 拟获取页面的url链接
∙ params : url中的额外参数，字典或字节流格式，可选
∙ **kwargs: 12个控制访问的参数

5.requests.patch()方法

requests.patch(url, data=None, **kwargs)
∙ url : 拟更新页面的url链接
∙ data : 字典、字节序列或文件，Request的内容
∙ **kwargs: 12个控制访问的参数

七、13个参数详解

params : 字典或字节序列，作为参数增加到url中

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('GET', 'http://python123.io/ws', params=kv)
>>> print(r.url)#添加了kv到url后面
http://python123.io/ws?key1=value1&key2=value2

data : 字典、字节序列或文件对象，作为Request的内容

>>> kv = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.request('POST', 'http://python123.io/ws', data=kv)
>>> body = '主体内容'
>>> r = requests.request('POST', 'http://python123.io/ws', data=body)

json : JSON格式的数据，作为Request的内容

>>> kv = {'key1': 'value1'}
>>> r = requests.request('POST', 'http://python123.io/ws', json=kv)

files : 字典类型，传输文件

>>> fs = {'file': open('data.xls', 'rb')}
>>> r = requests.request('POST', 'http://python123.io/ws', files=fs)

timeout : 设定超时时间，秒为单位

r = requests.request('GET', 'http://www.baidu.com', timeout=10)

proxies : 字典类型，设定访问代理服务器，可以增加登录认证

这个参数可以保护爬虫的安全

>>> pxs = { 'http': 'http://user:pass@10.10.10.1:1234'
'https': 'https://10.10.10.1:4321' }#代理ip
>>> r = requests.request('GET', 'http://www.baidu.com', proxies=pxs)

高级用法

cookies : 字典或CookieJar，Request中的cookie
auth : 元组，支持HTTP认证功能
allow_redirects : True/False，默认为True，重定向开关
stream : True/False，默认为True，获取内容立即下载开关
verify : True/False，默认为True，认证SSL证书开关
cert : 本地SSL证书路径

注：

在这里插入图片描述

山外青山楼外你

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫学习-Ruquests

** 网络爬虫学习**Requests库学习pip install requests：下载requests库基础使用`import requestsdef gethttp(url): try: r=requests.get(url)# get()方法获取网页内容 r.encoding='utf-8' return r.text except: return 'error'url="http://wwww.
复制链接

扫一扫