urllib中的handler

最新推荐文章于 2023-07-27 08:58:01 发布

steven~~~

最新推荐文章于 2023-07-27 08:58:01 发布

阅读量510

点赞数

文章标签： python 前端 http

本文链接：https://blog.csdn.net/qq_37837061/article/details/122830370

版权

本文介绍了一种解决动态Cookie反爬策略的方法，通过Python的urllib库中的HTTPHandler创建handler对象，结合build_opener获取opener，从而能够成功爬取设置有动态Cookie的网页内容。示例代码展示了如何爬取百度首页的源码。

摘要由CSDN通过智能技术生成

一些网页在反爬手段中加了cookies这个选项，每次爬取网站需要传入cookie信息，但是当网页的反爬手段是动态cookie的时候，输入静态cookie就不管用了，这个问题的解决方法就是handler处理器
下面的代码爬取了百度的网页源码，通过handler对象，可以获取到动态的cookie


# 需求： 使用handler访问百度，获取网页源码

import urllib.request

url = "http://www.baidu.com"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
}

request = urllib.request.Request(url = url, headers = headers)

# handler       build_opener        open

# 1：获取handler对象
handler = urllib.request.HTTPHandler

# 2： 获取opener对象
opener = urllib.request.build_opener(handler)

# 3： 调用open方法
response = opener.open(request)

content = response.read().decode('utf-8')

print(content)

steven~~~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib中的handler

一些网页在反爬手段中加了cookies这个选项，每次爬取网站需要传入cookie信息，但是当网页的反爬手段是动态cookie的时候，输入静态cookie就不管用了，这个问题的解决方法就是handler处理器
复制链接

扫一扫