Python爬虫（代理的使用）

最新推荐文章于 2024-05-27 08:52:59 发布

奈斯菟咪踢呦

最新推荐文章于 2024-05-27 08:52:59 发布

阅读量5.1k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_34288630/article/details/80430991

版权

Python 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

好多网站都有反爬措施，例如很多网站会检测某一段时间某一个IP的访问次数太过于频繁，就有可能会禁止这个IP的访问。当然面对这种情况可定也有相应的措施，我们只要隔一段时间换一个IP就可以了。因此我们就需要一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬。

在python中，可以使用urllib2中的ProxyHandler来设置使用代理服务器，下面通过代码说明如何来使用代理：

这里写图片描述

# coding=utf-8
import urllib2

#构建了两个代理Handler,一个代理IP，一个没有代理IP

httpproxy_handler = urllib2.ProxyHandler({"http":"124.88.67.81:80"})
nullproxy_handler = urllib2.ProxyHandler({})

#定义一个代理开关

proxySwitch = False
# 通过urllib2.build_opener()方法使用这些代理Hanlder对象，创建自定义opener对象
# 根据代理开关是否打开，使用不同的代理模式
if proxySwitch:
    opener = urllib2.build_opener(httpproxy_handler)
else:
    opener = urllib2.build_opener(nullproxy_handler)

request = urllib2.Request("http://www.baidu.com/")
# 使用opener.open()方法发送请求才使用自定义的代理，而urlopen()则不使用自定义代理。
response = opener.open(request)
# 就是将opener应用到全局，之后所有的，不管是opener.open()还是urlopen() 发送请求，都将使用自定义代理。
# urllib2.install_opener(opener)
# response = urlopen(request)


print response.read()

遇到问题：
当定义一个代理开关

proxySwitch = True 用代理时候运行报错；urllib2.URLError: <urlopen error [Errno 10060] >提示连接失败。

为了分析这一问题的原因，撸主采用了如下过程：
1、在浏览器里输入，可以正常打开，说明该站点是可以访问的。
2、同样的脚本放在公司的体验网上运行OK，说明脚本本身没有问题。

那就说明这个代理ip不能用所以导致这问题，选择不用ip代理proxySwitch = False；顺利爬到代码；

上面使用的是免费的开放代理，我们可以在一些代理网站上收集这些免费代理，测试后如果可以用，就把它收集起来用在爬虫上面。

免费代理网站：

西刺免费代理

快代理免费代理

全国代理ip

如果你有足够多的代理，可以放在一个列表中，随机选择一个代理去访问网站。如下：

import urllib2
import random

proxy_list = [
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"}
]

# 随机选择一个代理
proxy = random.choice(proxy_list)
# 使用选择的代理构建代理处理器对象
httpproxy_handler = urllib2.ProxyHandler(proxy)

opener = urllib2.build_opener(httpproxy_handler)

request = urllib2.Request("http://www.baidu.com/")
response = opener.open(request)
print response.read()

上面使用的都是免费代理，不是很稳定，很多时候会出现无法使用的情况，这时候可以考虑使用私密代理。也就是向代理供应商购买代理，供应商会提供一个有效代理，并且有自己的用户名和密码，具体使用和免费代理一样，这是多了一个账户认证，如下：

# 构建具有一个私密代理IP的Handler，其中user为账户，passwd为密码
httpproxy_handler = urllib2.ProxyHandler({"http" : "user：passwd@124.88.67.81:80"})

上面就是使用urllib2设置代理的方法，不过看起来有些麻烦，下面我们看看如何使用reqursts来使用代理。

使用免费代理：

import requests

# 根据协议类型，选择不同的代理
proxies = {
  "http": "http://12.34.56.79:9527",
  "https": "http://12.34.56.79:9527",
}

response = requests.get("http://www.baidu.com", proxies = proxies)
print response.text

使用私密代理：

import requests

# 如果代理需要使用HTTP Basic Auth，可以使用下面这种格式：
proxy = { "http": "mr_mao_hacker:sffqry9r@61.158.163.130:16816" }

response = requests.get("http://www.baidu.com", proxies = proxy)

print response.text

这样看起来简单不少。

注：可以将账户密码写入环境变量以免泄露

奈斯菟咪踢呦

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫（代理的使用）

好多网站都有反爬措施，例如很多网站会检测某一段时间某一个IP的访问次数太过于频繁，就有可能会禁止这个IP的访问。当然面对这种情况可定也有相应的措施，我们只要隔一段时间换一个IP就可以了。因此我们就需要一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬。在python中，可以使用urllib2中的ProxyHandler来设置使用代理服务器，下面通过代码说明如何来使用...
复制链接

扫一扫

专栏目录