【大部分内容属转载并经过整理】python 爬虫请求模块requests

最新推荐文章于 2024-09-02 23:14:47 发布

laoluobo76

最新推荐文章于 2024-09-02 23:14:47 发布

阅读量191

点赞数

分类专栏： Python学习笔记文章标签： python

本文链接：https://blog.csdn.net/laoluobo76/article/details/108116575

版权

Python学习笔记专栏收录该内容

9 篇文章 3 订阅

订阅专栏

文章目录

requests
状态码
请求方式
- GET请求
- POST请求
请求头
session
处理不信任的SSL证书
身份认证

requests

相比urllib，第三方库requests更加简单人性化，是爬虫工作中常用的库

requests安装

初级爬虫的开始主要是使用requests模块
安装requests模块：
Windows系统：
cmd中：

pip install requests

mac系统中：
终端中：

pip3 install requests

requests库的基本使用

import requests

url = 'https://www.csdn.net/'
reponse = requests.get(url)
#返回unicode格式的数据(str) 
print(reponse.text)

在这里插入图片描述

响应对象response的用法

response.text 返回unicode格式的数据(str)
response.content 返回字节流数据(二进制)
response.content.decode(‘utf-8’) ⼿动进⾏解码
response.url 返回url
response.encode() = ‘编码’

状态码

response.status_code: 检查响应的状态码
在这里插入图片描述
例如：
200 : 请求成功
301 : 永久重定向
302 : 临时重定向
403 : 服务器拒绝请求
404 : 请求失败(服务器无法根据客户端的请求找到资源（⽹⻚）)
500 : 服务器内部请求

# 导入requests
import requests
# 调用requests中的get()方法来向服务器发送请求，括号内的url参数就是我们
# 需要访问的网址，然后将获取到的响应通过变量response保存起来
url = 'https://www.csdn.net/'  # csdn官网链接链接
response = requests.get(url)
print(response.status_code) # response.status_code: 检查响应的状态码
# 200

请求方式

requests的几种请求方式：

p = requests.get(url)
p = requests.post(url)
p = requests.put(url,data={'key':'value'})
p = requests.delete(url)
p = requests.head(url)
p = requests.options(url)

GET请求

HTTP默认的请求方法就是GET

没有请求体
数据必须在1K之内！
GET请求数据会暴露在浏览器的地址栏中

GET请求常用的操作：

在浏览器的地址栏中直接给出URL，那么就一定是GET请求
点击页面上的超链接也一定是GET请求
提交表单时，表单默认使用GET请求，但可以设置为POST

POST请求

(1). 数据不会出现在地址栏中
(2). 数据的大小没有上限
(3). 有请求体
(4). 请求体中如果存在中文，会使用URL编码！

requests.post()用法与requests.get()完全一致，特殊的是requests.post()有一个data参数，用来存放请求体数据

请求头

当我们打开一个网页时，浏览器要向网站服务器发送一个HTTP请求头，然后网站服务器根据HTTP请求头的内容生成当此请求的内容发送给服务器。
我们可以手动设定请求头的内容：

import requests

header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}

url = 'https://www.csdn.net/'
reponse = requests.get(url,headers=header)
#打印文本形式
print(reponse.text)

超时设置

在本机网络状况不好或者服务器网络响应太慢甚至无响应时，我们可能会等待特别久的时间才可能会收到一个响应，甚至到最后收不到响应而报错。为了防止服务器不能及时响应，我们应该设置一个超时时间，即超过了这个时间还没有得到响应，那就报错。
设置超时时间需要用到 timeout 参数。这个时间的计算是发出 Request 到服务器返回 Response 的时间。
下面用一个实例来感受一下：

import requests

r = requests.get('https://www.taobao.com', timeout=1)
print(r.status_code)

通过这样的方式，我们可以将超时时间设置为 1 秒，如果 1 秒内没有响应，那就抛出异常。
实际上请求分为两个阶段，即 connect（连接）和 read（读取）。
上面的设置 timeout 值将会用作 connect 和 read 二者的 timeout 总和。
如果要分别指定，就可以传入一个元组：

r = requests.get('https://www.taobao.com', timeout=(5, 11))

如果想永久等待，那么我们可以直接将 timeout 设置为 None，或者不设置直接留空，因为默认是 None。这样的话，如果服务器还在运行，但是响应特别慢，那就慢慢等吧，它永远不会返回超时错误的。
用法如下：

r = requests.get('https://www.taobao.com', timeout=None)

或直接不加参数：

r = requests.get('https://www.taobao.com')

requests设置代理

使用requests添加代理只需要在请求方法中(get/post)传递proxies参数就可以了
对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，对于大规模且频繁的请求，网站可能会直接登录验证，验证码，甚至直接把IP给封禁掉。
那么为了防止这种情况的发生，我们就需要设置代理来解决这个问题，在 Requests 中需要用到 proxies 这个参数。
可以用这样的方式设置：

import requests

proxies = {
  'http': 'http://10.10.1.10:3128',
  'https': 'http://10.10.1.10:1080',
}

requests.get('https://www.taobao.com', proxies=proxies)

当然直接运行这个实例可能不行，因为这个代理可能是无效的，请换成自己的有效代理试验一下。
若代理需要使用 HTTP Basic Auth，可以使用类似 http://user:password@host:port 这样的语法来设置代理。
实例如下：

import requests

proxies = {
    'https': 'http://user:password@10.10.1.10:3128/',
}
requests.get('https://www.taobao.com', proxies=proxies)

除了基本的 HTTP 代理，Requests 还支持 SOCKS 协议的代理。
首先需要安装 Socks 这个库，命令如下：

pip3 install "requests[socks]"

然后就可以使用 SOCKS 协议代理了，实例如下：

import requests

proxies = {
    'http': 'socks5://user:password@host:port',
    'https': 'socks5://user:password@host:port'
}
requests.get('https://www.taobao.com', proxies=proxies)

cookie

cookie ：通过在客户端记录的信息确定用户身份

HTTP是一种⽆连接协议,客户端和服务器交互仅仅限于请求/响应过程,结束后断开,下一次请求时,服务器会认为是一个新的客户端,为了维护他们之间的连接, 让服务器知道这是前一个用户发起的请求,必须在一个地方保存客户端信息。

requests操作Cookies很简单，只需要指定cookies参数即可

import requests
#这段cookies是从CSDN官网控制台中复制的
header = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
           'cookie': 'uuid_tt_dd=10_30835064740-1583844255125-466273; dc_session_id=10_1583844255125.696601; __gads=ID=23811027bd34da29:T=1583844256:S=ALNI_MY6f7VlmNJKxrkHd2WKUIBQ34Bbnw; UserName=xdc1812547560; UserInfo=708aa833b2064ba9bb8ab0be63866b58; UserToken=708aa833b2064ba9bb8ab0be63866b58; UserNick=xdc1812547560; AU=F85; UN=xdc1812547560; BT=1590317415705; p_uid=U000000; Hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_30835064740-1583844255125-466273!5744*1*xdc1812547560; Hm_up_6bcd52f51e9b3dce32bec4a3997715ac=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22xdc1812547560%22%2C%22scope%22%3A1%7D%7D; log_Id_click=1; Hm_lvt_feacd7cde2017fd3b499802fc6a6dbb4=1595575203; Hm_up_feacd7cde2017fd3b499802fc6a6dbb4=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22xdc1812547560%22%2C%22scope%22%3A1%7D%7D; Hm_ct_feacd7cde2017fd3b499802fc6a6dbb4=5744*1*xdc1812547560!6525*1*10_30835064740-1583844255125-466273; Hm_up_facf15707d34a73694bf5c0d571a4a72=%7B%22islogin%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isonline%22%3A%7B%22value%22%3A%221%22%2C%22scope%22%3A1%7D%2C%22isvip%22%3A%7B%22value%22%3A%220%22%2C%22scope%22%3A1%7D%2C%22uid_%22%3A%7B%22value%22%3A%22xdc1812547560%22%2C%22scope%22%3A1%7D%7D; Hm_ct_facf15707d34a73694bf5c0d571a4a72=5744*1*xdc1812547560!6525*1*10_30835064740-1583844255125-466273; announcement=%257B%2522isLogin%2522%253Atrue%252C%2522announcementUrl%2522%253A%2522https%253A%252F%252Flive.csdn.net%252Froom%252Fyzkskaka%252Fats4dBdZ%253Futm_source%253D908346557%2522%252C%2522announcementCount%2522%253A0%257D; Hm_lvt_facf15707d34a73694bf5c0d571a4a72=1596946584,1597134917,1597155835,1597206739; searchHistoryArray=%255B%2522%25E8%258F%259C%25E9%25B8%259FIT%25E5%25A5%25B3%2522%252C%2522%25E5%25AE%25A2%25E6%259C%258D%2522%255D; log_Id_pv=7; log_Id_view=8; dc_sid=c0efd34d6da090a1fccd033091e0dc53; TY_SESSION_ID=7d77f76f-a4b1-43ef-9bb5-0aebee8ee475; c_ref=https%3A//www.baidu.com/link; c_first_ref=www.baidu.com; c_first_page=https%3A//www.csdn.net/; Hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1597245305,1597254589,1597290418,1597378513; c_segment=1; dc_tos=qf1jz2; Hm_lpvt_6bcd52f51e9b3dce32bec4a3997715ac=1597387359'}

url = 'https://www.csdn.net/'
reponse = requests.get(url,headers=header)
#打印文本形式
print(reponse.text)

session

session ：通过在服务端记录的信息确定用户身份
这⾥这个session就是⼀个指的是会话
会话对象是一种高级的用法，可以跨请求保持某些参数，比如在同一个Session实例之间保存Cookie，像浏览器一样，我们并不需要每次请求Cookie，Session会自动在后续的请求中添加获取的Cookie，这种处理方式在同一站点连续请求中特别方便

处理不信任的SSL证书

什么是SSL证书？
SSL证书是数字证书的⼀种，类似于驾驶证、护照和营业执照的电⼦副本。

因为配置在服务器上，也称为SSL服务器证书。SSL 证书就是遵守 SSL协议，由受信任的数字证书颁发机构CA，在验证服务器身份后颁发，具有服务器身份验证和数据传输加密功能
我们来爬一个证书不太合格的网站
在这里插入图片描述

import requests
url = 'https://inv-veri.chinatax.gov.cn/'

resp = requests.get(url)

print(resp.text)

在这里插入图片描述
我们来修改一下代码

import requests
url = 'https://inv-veri.chinatax.gov.cn/'

resp = requests.get(url,verify = False)

print(resp.text)

我们的代码又能成功爬取了
在这里插入图片描述

身份认证

在访问网站时，我们可能会遇到这样的认证页面，如图所示：
在这里插入图片描述
如果遇到这样的网站验证，可以使用 Requests 自带的身份认证功能，实例如下：

import requests
from requests.auth import HTTPBasicAuth

r = requests.get('http://localhost:5000', auth=HTTPBasicAuth('username', 'password'))
print(r.status_code)

如果用户名和密码正确的话，请求时就会自动认证成功，会返回 200 状态码，如果认证失败，则会返回 401 状态码。
当然如果参数都传一个 HTTPBasicAuth 类，就显得有点繁琐了，所以 Requests 提供了一个更简单的写法，可以直接传一个元组，它会默认使用 HTTPBasicAuth 这个类来认证。
所以上面的代码可以直接简写如下：

import requests

r = requests.get('http://localhost:5000', auth=('username', 'password'))
print(r.status_code)

运行效果和上面的是一样的。
Requests 还提供了其他的认证方式，如 OAuth 认证，不过需要安装 oauth 包，命令如下：

pip3 install requests_oauthlib

使用 OAuth1 认证的方法如下：

import requests
from requests_oauthlib import OAuth1

url = 'https://api.twitter.com/1.1/account/verify_credentials.json'
auth = OAuth1('YOUR_APP_KEY', 'YOUR_APP_SECRET',
              'USER_OAUTH_TOKEN', 'USER_OAUTH_TOKEN_SECRET')
requests.get(url, auth=auth)

更多详细的功能就可以参考 requests_oauthlib 的官方文档：
更多的用法可以参考 Requests 的官方文档：http://docs.python-requests.org/。

以上内容主要转载至
csdn 码农一号已就位《python 爬虫请求模块requests》
csdn 未衬老师《【Python】Python3网络爬虫实战-25、requests：高级用法》

laoluobo76

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【大部分内容属转载并经过整理】python 爬虫请求模块requests

文章目录requestsrequests安装requests库的基本使用响应对象response的用法状态码请求方式GET请求POST请求请求头超时设置requests设置代理cookiesession处理不信任的SSL证书身份认证requests相比urllib，第三方库requests更加简单人性化，是爬虫工作中常用的库requests安装初级爬虫的开始主要是使用requests模块安装requests模块：Windows系统：cmd中：pip install requestsmac
复制链接

扫一扫

专栏目录