最近还在搞爬虫,写一些python 模块记录一下,增强一下记忆,资料不是官网就是其他大神写好了的,我只是做个整理自己看到而已。觉得不合适,麻烦私聊我(不经常在线,看到会立即回的),我会可以删掉:
1.必不可少的 requests 模块:
复制postman 代码就可以了运行了;
import requests
url = "https:...."
payload="{\"start\":\"2022-02-07\",\"end\":\"2022-02-07\",......}"
headers = {
'....':'。。。。。。。'
'referer': '。。。。。。。。',
'cookie': '。。。。。。。。'
}
response = requests.request("POST", url, headers=headers, data=payload)
print(response.text)
requests.request(“POST”, url, headers=headers, data=payload)
method: 支持 GET, OPTIONS, HEAD, POST, PUT, PATCH, DELETE
url: str的地址
headers:包含接口的请求头信息
params: (可选) 十几个控制访问参数
response 是返回的信息:
response.text # 响应文本(字符串)(通常打印的时候,可以这样打印出来)
response.content # 响应内容(二进制),一般用来爬取视频
response.status_code # 响应的状态码
response.url # 获取请求连接地址
response.cookies # 获取返回的cookies信息
response.cookies.get_dict() # 获取返回的cookies信息
response.request # 获取请求方式
将返回结果转化为josn格式进行反序列化
response.json()
爬取文档乱码
response.apparent_encoding # 文档的编码的方式(从HTML文档找)
response.encoding # 响应体编码方式
eg: response.encoding = response.apparent_encoding # 文档的声明方式
response.headers # 查看响应头
response.history # 重定向历史 即前一次请求的地址