使用requests也需要考虑反爬的问题
import requests
# 定义目标url地址
dest_url = "https://www.baidu.com"
# 伪造一个浏览器信息
header = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit"
}
# 向目标发送http请求
res = requests.get(url=dest_url, headers=header)
# 输出结果信息
print(f"响应状态码:{res.status_code}")
print(f"请求的url:{res.url}")
print(f"获取Cookie:{res.cookies}")
print(f"获取编码类型:{res.encoding}")
# print(f"获取响应头:{res.headers}")
# 将收到的内容编码,用utf-8进行编码
res.encoding = "utf-8"
print(f"获取响应体:{res.text}")
是实际使用爬虫的时候,会涉及到一个问题:会在短时间内大量多次访问服务器,为了降低触发服务器 反扒机制的情况,通常定义多个useragent,然后在访问服务器端的时候,随机选择一个进行使用。
import random
import requests
# 定义目标url地址
dest_url = "https://www.baidu.com"
# 定义列表,列表中保存多个浏览器信息
agent_listt = [
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit",
"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:108.0) Gecko/20100101
Firefox/108.0",
"Mozilla/3.0 (Windows NT 10.0; Win64; x64) AdsfsdafasdppleWebKit",
"Mozilla/6.0 (Windows NT 10.0; Win64;refox/108.0"
]
# 随机挑选一个浏览器
url_obj = random.choice(agent_listt)
# 伪造一个浏览器信息
header = {
"User-Agent": url_obj
}
# 向目标发送http请求
res = requests.get(url=dest_url, headers=header)
# 输出结果信息
print(f"响应状态码:{res.status_code}")
print(f"请求的url:{res.url}")
print(f"获取Cookie:{res.cookies}")
print(f"获取编码类型:{res.encoding}")
# print(f"获取响应头:{res.headers}")
# 将收到的内容编码,用utf-8进行编码
res.encoding = "utf-8"
print(f"获取响应体:{res.text}")