python爬虫 urllib模块反爬虫机制UA详解

最新推荐文章于 2024-08-29 21:24:41 发布

程序员浩然

最新推荐文章于 2024-08-29 21:24:41 发布

阅读量2k

点赞数

分类专栏： python爬虫教程文章标签： python 编程语言

本文链接：https://blog.csdn.net/haoxun09/article/details/104620819

版权

本文深入探讨了Python爬虫使用urllib模块时如何应对反爬虫机制，特别是关于User-Agent（UA）的详解。通过自定义请求对象和伪装UA，可以突破一些网站的反爬策略，确保爬虫能正常获取所需数据。

摘要由CSDN通过智能技术生成

这篇文章主要介绍了python爬虫 urllib模块反爬虫机`制UA详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
方法：使用urlencode函数

urllib.request.urlopen()

import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?'
#将get请求中url携带的参数封装至字典中
param = {
  'query':'周杰伦'
}
#对url中的非ascii进行编码
param = urllib.parse.urlencode(param)
#将编码后的数据值拼接回url中
url += param 
response = urllib.request.urlopen(url=url)
data = response.read()
with open('./周杰伦1.html','wb') as fp:
  fp.write(data)
print('写入文件完毕')

开发者工具浏览器按F12或者右键按检查，有个抓包工具network，刷新页面，可以看到网页资源，可以看到请求头信息，UA

在抓包工具点击任意请求,可以看到所有请求信息，向应信息，

主要用到headers，response，response headers存放响应头信息，request headers 存放请求信息在这里插入图片描述