Python 反爬

最新推荐文章于 2024-10-02 10:53:34 发布

山河Z

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量742

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/m0_67332253/article/details/131706891

版权

文章介绍了在使用requests库进行网络请求时，如何考虑反爬策略。通过伪造浏览器信息，特别是随机选择User-Agent，可以避免短时间内大量访问同一服务器而触发反爬机制。示例代码展示了如何创建一个包含多个User-Agent的列表，然后在每次请求时随机选取一个来减少被识别为爬虫的风险。

摘要由CSDN通过智能技术生成

使用requests也需要考虑反爬的问题

import requests

# 定义目标url地址
dest_url = "https://www.baidu.com"

# 伪造一个浏览器信息
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit"
}

# 向目标发送http请求
res = requests.get(url=dest_url, headers=header)

# 输出结果信息
print(f"响应状态码：{res.status_code}")
print(f"请求的url：{res.url}")
print(f"获取Cookie：{res.cookies}")
print(f"获取编码类型：{res.encoding}")
# print(f"获取响应头：{res.headers}")

# 将收到的内容编码，用utf-8进行编码
res.encoding = "utf-8"

print(f"获取响应体：{res.text}")

是实际使用爬虫的时候，会涉及到一个问题：会在短时间内大量多次访问服务器，为了降低触发服务器反扒机制的情况，通常定义多个useragent，然后在访问服务器端的时候，随机选择一个进行使用。

import random
import requests

# 定义目标url地址
dest_url = "https://www.baidu.com"

# 定义列表，列表中保存多个浏览器信息
agent_listt = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101
Firefox/108.0",
"Mozilla/3.0 (Windows NT 10.0; Win64; x64) AdsfsdafasdppleWebKit",
"Mozilla/6.0 (Windows NT 10.0; Win64;refox/108.0"
]

# 随机挑选一个浏览器

url_obj = random.choice(agent_listt)

# 伪造一个浏览器信息
header = {
"User-Agent": url_obj
}

# 向目标发送http请求
res = requests.get(url=dest_url, headers=header)

# 输出结果信息
print(f"响应状态码：{res.status_code}")
print(f"请求的url：{res.url}")
print(f"获取Cookie：{res.cookies}")
print(f"获取编码类型：{res.encoding}")
# print(f"获取响应头：{res.headers}")

# 将收到的内容编码，用utf-8进行编码
res.encoding = "utf-8"

print(f"获取响应体：{res.text}")