Python 反爬

文章介绍了在使用requests库进行网络请求时,如何考虑反爬策略。通过伪造浏览器信息,特别是随机选择User-Agent,可以避免短时间内大量访问同一服务器而触发反爬机制。示例代码展示了如何创建一个包含多个User-Agent的列表,然后在每次请求时随机选取一个来减少被识别为爬虫的风险。
摘要由CSDN通过智能技术生成
使用requests也需要考虑反爬的问题
import requests

# 定义目标url地址
dest_url = "https://www.baidu.com"

# 伪造一个浏览器信息
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit"
}

# 向目标发送http请求
res = requests.get(url=dest_url, headers=header)

# 输出结果信息
print(f"响应状态码:{res.status_code}")
print(f"请求的url:{res.url}")
print(f"获取Cookie:{res.cookies}")
print(f"获取编码类型:{res.encoding}")
# print(f"获取响应头:{res.headers}")

# 将收到的内容编码,用utf-8进行编码
res.encoding = "utf-8"

print(f"获取响应体:{res.text}")
是实际使用爬虫的时候,会涉及到一个问题:会在短时间内大量多次访问服务器,为了降低触发服务器 反扒机制的情况,通常定义多个useragent,然后在访问服务器端的时候,随机选择一个进行使用。
import random
import requests

# 定义目标url地址
dest_url = "https://www.baidu.com"

# 定义列表,列表中保存多个浏览器信息
agent_listt = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101
Firefox/108.0",
"Mozilla/3.0 (Windows NT 10.0; Win64; x64) AdsfsdafasdppleWebKit",
"Mozilla/6.0 (Windows NT 10.0; Win64;refox/108.0"
]

# 随机挑选一个浏览器

url_obj = random.choice(agent_listt)

# 伪造一个浏览器信息
header = {
"User-Agent": url_obj
}

# 向目标发送http请求
res = requests.get(url=dest_url, headers=header)

# 输出结果信息
print(f"响应状态码:{res.status_code}")
print(f"请求的url:{res.url}")
print(f"获取Cookie:{res.cookies}")
print(f"获取编码类型:{res.encoding}")
# print(f"获取响应头:{res.headers}")

# 将收到的内容编码,用utf-8进行编码
res.encoding = "utf-8"

print(f"获取响应体:{res.text}")

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值