我们从四个模块来讲解:
- GET请求
- POST请求
- 响应
- 高级用法(cookie,session等)
GET请求:
- 最基本的使用:
导入requests库 import requests r = requests.get('https://www.httpbin.org/get') 将返回的内容以文本形式打印出来 print(r.text) ------------------输出结果----------------------- { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "www.httpbin.org", "User-Agent": "python-requests/2.32.3", "X-Amzn-Trace-Id": "Root=1-66d0962b-11c2397e368fc6e415ecb1ee" }, "origin": "113.205.146.233", "url": "https://www.httpbin.org/get" }
这就是我们最最基础的使用方法,也是后续用的很多的一个方法,一些复杂的爬虫无非是在这些基础的使用方法上进一步的发散,所以基础一定要学好。
-
添加请求参数:
import requests
data = {
'name':'xhr',
'age':24
}
r = requests.get('https://www.httpbin.org/get',params=data)
print(r.text)
----------------------------输出结果--------------------------
{
"args": {
"age": "24",
"name": "xhr"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "www.httpbin.org",
"User-Agent": "python-requests/2.32.3",
"X-Amzn-Trace-Id": "Root=1-66d0981b-61b174ea7cc7b29716294455"
},
"origin": "113.205.146.233",
"url": "https://www.httpbin.org/get?name=xhr&age=24"
}
可以看到我们的响应的结果中已经有我们传入的数据了,其实这一步就等同于我们拼接了URL,即代码中输出结果中的‘url’的内容,需要注意一下,使用GET方法添加请求条件时,参数是params
- 抓取二进制数据:
import requests
r = requests.get('https://scrape.center/favicon.ico')
print(r.content)
print(r.text)
对于我们返回结果是图片,视频等,我们对于返回结果进行存储时,需要采用二进制即content方法来操作,可以试试text和content的打印结果的区别,由于打印的内容比较多,我这里就没有展示
- 添加请求头:
import requests
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36 Edg/128.0.0.0'
}
r = requests.get('https://www.baidu.com/',headers=headers)
print(r.text)
对于很多网站,是不会这么轻易的让你爬取到他的网站内容的,有时候会查看你发起的请求是否是正常的浏览器发送的请求,如果不是,就可能无法获取响应数据或者直接报错,所以我们添加请求头,来让服务器认为我们是正常的浏览器访问,也就是UA伪装。
在访问任何网站时,F12查看network(网络),找到请求标头,一般是请求标头的最后一行,可以看到User-Agent的内容,无论你访问任何网址,同一个浏览器,User-Agent的内容是一样的。
POST请求:
import requests
data = {
'name':'xhr'
}
r = requests.post('https://www.httpbin.org/post',data=data)
print(r.text)
--------------------------输出结果-----------------------
{
"args": {},
"data": "",
"files": {},
"form": {
"name": "xhr"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Content-Length": "8",
"Content-Type": "application/x-www-form-urlencoded",
"Host": "www.httpbin.org",
"User-Agent": "python-requests/2.32.3",
"X-Amzn-Trace-Id": "Root=1-66d09ea6-7bb4169f0bdce166363f4ccb"
},
"json": null,
"origin": "113.205.146.233",
"url": "https://www.httpbin.org/post"
}
POST请求的相关参数其实跟GET请求参数有很多相似的地方,我们可以对比一下学习。
- POST请求参数的关键字是 data,GET请求参数的关键字是 params
- POST请求的内容是在表单中即"form"体现,GET请求添加的参数内容具体是在"args"中体现
响应:
- 状态码:
import requests
r = requests.get('https://ssr1.scrape.center/')
exit() if not r.status_code == requests.codes.ok else print('Request Successfully')
--------------------------输出结果-------------------------
Request Successfully
状态码其实很简单,这里主要是介绍一下requests库的内置状态码查询对象requests.codes,能够使我们的状态码更加的直观。当然不止ok这一个条件码,具体还有很多,具体使用起来可以去查询一下。
高级用法:
- 文件上传:
import requests
files = {'file':open('从0开始/requests/favicon.ico','rb')}
r = requests.post('https://www.httpbin.org/post',files=files)
print(r.text)
--------------------输出结果----------------------
{
"args": {},
"data": "",
"files": {
"file": "data:application/octet-stream;base64,AAABAAEAICAAAAEAIACoEAAAFgAAACgAAAAgAAAAQAAAAAEAIAAAAAAAABAAABILAAASCwAAAAA..."},
"form": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Content-Length": "4433",
"Content-Type": "multipart/form-data; boundary=380ddd7af4b0861eaa420a1e5aeeafbc",
"Host": "www.httpbin.org",
"User-Agent": "python-requests/2.32.3",
"X-Amzn-Trace-Id": "Root=1-66d0a1e1-1894392318198fe30f3a9689"
},
"json": null,
"origin": "113.205.146.233",
"url": "https://www.httpbin.org/post"
}
POST 请求可以上传我们写入本地的文件,作为请求的参数,我这里就用之前获取的图片来传入的,可以在返回的结果中看到"file"中我们的图片内容是以二进制的形式传入的
- Cookie设置
import requests
r = requests.get('https://www.baidu.com/')
# print(r.cookies)
for key,value in r.cookies.items():
print(key + '=' + value)
----------------------输出结果----------------------
BDORZ=27315
获取相关的Cookie条目的名称和值,cookie具体的作用可以参考
- Session维持
实际上,无论我们用GET请求也好,POST请求也好,其本质都是单独开启了一次请求,假如我们请求了一个需要登录的网站,第一次登录成功后,我第二次请求获取登录后的相关数据,这是不行的,就如刚才所说,每次请求都是独立的,为了解决这个问题,引入了Session对象
用代码来演示实际的区别
import requests
requests.get('https://www.httpbin.org/cookies/set/number/1234567')
r = requests.get('https://www.httpbin.org/cookies')
print(r.text)
--------------------输出结果--------------------------
{
"cookies": {}
}
--------------------------------------------------------
import requests
s = requests.Session()
s.get('https://www.httpbin.org/cookies/set/number/1234567')
r = s.get('https://www.httpbin.org/cookies')
print(r.text)
--------------------输出结果--------------------------
{
"cookies": {
"number": "1234567"
}
}
- SSL证书验证
有时我们访问网站时,可能会有警告
这是由于该网站没有设置好HTTPS证书或者是网站的HTTPS证书可能不被CA机构认可,那么我们利用requests库来请求这类网站时,就会报错SSLError ,为了解决这个问题,我们引入了verify参数
import requests
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
--------------------输出结果------------------
C:\Users\46851\AppData\Local\Programs\Python\Python310\lib\site-packages\urllib3\connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host 'ssr2.scrape.center'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#tls-warnings
warnings.warn(
200
verify参数的作用是控制是否验证证书,False->不验证证书,True->验证证书。此外还需要注意一点,如果我们不设置这个参数,那么默认是会自动验证证书。
有了这个参数我们就可以很好的解决了浏览网站提示“您的连接不是私密连接”下无法获取信息的问题。
- logging日志
刚才的输出结果中虽然结果是可以正确的打印出来,可是我们结果中有警告,具体是建议我们设置证书,看着挺烦的,所以我们可以通过捕获警告的方式来忽略警告
import requests
import logging
logging.captureWarnings(True)
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
------------------输出结果----------------
200
我们也可以配置日志记录器来让我们的代码错误信息更规范,层级更明确
import requests
import logging
# 配置日志记录器
logging.basicConfig(level=logging.WARNING, format='%(asctime)s - %(levelname)s - %(message)s')
logging.captureWarnings(True)
r = requests.get('https://ssr2.scrape.center/',verify=False)
print(r.status_code)
------------------输出结果-------------------
2024-08-30 02:13:52,749 - WARNING - C:\Users\46851\AppData\Local\Programs\Python\Python310\lib\site-packages\urllib3\connectionpool.py:1099: InsecureRequestWarning: Unverified HTTPS request is being made to host 'ssr2.scrape.center'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#tls-warnings
warnings.warn(
200
- 身份认证
有时我们登录网站时需要账号密码才能进入网站获取信息,为了解决这个问题,requests库引入了auth参数
import requests
r = requests.get('https://ssr3.scrape.center/',auth=('admin','admin'))
if r.status_code == requests.codes.ok:
print('Request Successfully')
--------------------输出结果----------------------
Request Successfully
此代码中,返回值为登录后的网站信息
-
代理
import requests
proxies = {
'http':'http://10.10.10.10:1080',
'https':'http://10.10.10.10:1080'
}
requests.get('https://www.httpbin.org/get',proxies=proxies)
这里展示的代理是失效的,仅作为案例参考具体的使用方法,可以去相关代理网站中去获取有效的代理