Python模拟谷歌浏览器获取网页内容，反反爬虫

最新推荐文章于 2024-07-27 21:20:01 发布

创新未来者

最新推荐文章于 2024-07-27 21:20:01 发布

阅读量1.2k

点赞数

文章标签： python 开发语言爬虫 Powered by 金山文档

本文链接：https://blog.csdn.net/jackwu11/article/details/129152777

版权

今天爬取网页内容和文件遇到了反爬虫，找到了一个比较好的示例代码

import urllib.request

# 要获取数据的 URL
url = "https://www.example.com/"

# 谷歌浏览器的 User-Agent 字符串
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"

# 创建一个带有 User-Agent 头的请求
req = urllib.request.Request(url, headers={"User-Agent": user_agent})

# 读取网页数据
response = urllib.request.urlopen(req)

# 解码数据并将其转换为字符串
html = response.read().decode('utf-8')

# 打印获取的数据
print(html)