【Requests入门】

最新推荐文章于 2024-07-25 17:11:44 发布

小小蔷薇～

最新推荐文章于 2024-07-25 17:11:44 发布

阅读量789

点赞数 15

分类专栏：我的python爬虫笔记文章标签：爬虫笔记 python

本文链接：https://blog.csdn.net/qiang_wei123/article/details/140211949

版权

我的python爬虫笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

[python爬虫笔记]

💕学习爬虫的第三天💕

requests 是一个常用的 HTTP 请求库，可以方便地向网站发送 HTTP 请求，并获取响应结果。它模块比 urllib 模块更简洁。

使用 requests 发送 HTTP 请求需要先导入 requests 模块：

import requests

导入后就可以发送 HTTP 请求，使用 requests 提供的方法向指定 URL 发送 HTTP 请求，例如：

# 发送请求
x = requests.get('https://www.runoob.com/')

# 返回网页内容
print(x.text)

每次调用 requests 请求之后，会返回一个 response 对象，该对象包含了具体的响应信息，如状态码、响应头、响应内容等。

print(response.status_code)  # 获取响应状态码
print(response.headers)  # 获取响应头
print(response.content)  # 获取响应内容

另外，爬虫的请求方式有很多，最常用的请求方式分为两种：
GET 和 POST

使用GET时打印文本需要使用text方法，而使用POST方式打印输出时则需要使用json()
json可以将服务器返回的内容直接处理成json() => dict

import requests

# 1.获取目标网页的url
url = "https://fanyi.baidu.com/sug"
# 2. 解析网页，拿到源码
# 伪装头部
hea = {
    "User-Agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# 控制台输入
s = input('请输入想要查找的单词：')
#form-data格式化数据输入
dat = {
    "kw": s
}
resp = requests.post(url, headers=hea, data=dat)
print(resp.json())

其中headers很关键，如果不添加headers，有很大的概率会被反爬。
另外，在爬虫中发POST请求，发送的数据必须放在字典中，通过data参数进行传递
如果要使用data传递数据时，在负载中可以看到【表单数据】的的格式，格式的关键字必须是“kw”，如下所示。

#form-data格式化数据输入
dat = {
    "kw": s
}
resp = requests.post(url, headers=hea, data=dat)

如果不知道怎么写，在浏览器中可以查到相关格式，直接复制粘贴即可。
在这里插入图片描述

当然，在python爬虫中不止一种封装url的方法，也就是自己传递参数时的封装

使用第二种方式封装GET请求

首先我们需要一个url，这个url可以是不带参数的，我们通过param{}对参数封装，然后在requests发送get请求时加入这些参数。幸运的是，我们不需要自己拼接url参数，param会帮我们自动和原始的url进行拼接。不得不说，太良心了👏。

# 使用第二种方式封装GET请求

import requests

# 1. 准备目标网页URL
url = "https://movie.douban.com/j/chart/top_list"
# 2. 使用GET请求发送请求
# 需要伪装请求头
header = {
    "User-Agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
}
# 使用第二中方式封装url参数
param = {
    "type": 5,
    "interval_id": "100:90",
    "action": "",
    "start": 60,
    "limit": 20
}
resp = requests.get(url, headers=header, params=param)
print(resp.text)

小小蔷薇～

关注

15
点赞
踩
5

收藏

觉得还不错? 一键收藏
3
评论
【Requests入门】

requests 是一个常用的 HTTP 请求库，可以方便地向网站发送 HTTP 请求，并获取响应结果。它模块比 urllib 模块更简洁。每次调用 requests 请求之后，会返回一个 response 对象，该对象包含了具体的响应信息，如状态码、响应头、响应内容等。
复制链接

扫一扫