ProxyHandler处理器（代理设置一）

最新推荐文章于 2024-03-28 09:51:39 发布

浅汐王

最新推荐文章于 2024-03-28 09:51:39 发布

阅读量7.9w

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_32252917/article/details/79074219

版权

本文介绍了Python爬虫中使用ProxyHandler处理代理IP的方法。为避免因频繁访问同一IP导致被网站封锁，可以通过更换代理IP进行爬取。讨论了免费与付费代理的区别，免费代理可能存在速度慢、匿名度低等问题，而专业爬虫可能倾向于使用更稳定的私密代理。

摘要由CSDN通过智能技术生成

使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。

urllib2中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义opener来使用代理：

#urllib2_proxy1.py

import urllib2

# 构建了两个代理Handler，一个有代理IP，一个没有代理IP
httpproxy_handler = urllib2.ProxyHandler({
  "http" : "124.88.67.81:80"})
nullproxy_handler = urllib2.ProxyHandler({})

proxySwitch = True #定义一个代理开关

# 通过 urllib2.build_opener()方法使用这些代理Handler对象，创建自定义opener对象
# 根据代理开关是否打开，使用不同的代理模式