教你如何快速构建ip代理池!

做爬虫时,遇到访问太频繁IP被封是难以避免的,而本地单个IP是不足以进行大规模爬取,并且自己并不想购买付费代理,在这里构建一个IP代理池是非常有必要的。

代理池主要由5部分组成:ProxyGeter(代理获取模块)、RedisClient(代理管理模块,负责存储、删除、取出等基本操作)、Texter(代理可用性测试模块)和Web_Api(用户获取模块)。

ProxyGeter

从几个代理网站爬取最新的代理,并把代理存储到redis数据库中

RedisClient

主要实现ip的删、减、增等基本操作,
采用reids的几方面原因如下:

  • redis的hash数据结构可以为IP的有效性(根据可用性分为0-100)进行评分;
  • redis提供的key-value更方便地储存IP;
  • 对于IP的存储、提取、删除、查询数量等功能会更加地快捷;
Texter

模块的主要目的是检测ip的可用性。提前设置好需要检测的网站站点,然后随机取出数据库中的代理,用获取到的ip来访问目标站点:

  • 若访问无效,首先降低ip的分数等级(减10),其次做判断:若该ip的分数等级低于10分直接从reids数据库中删除;
  • 若访问有效,首先增加ip的分数等级(加10),其次更新reids中该ip的分数等级;
Web_Api

为了让用户获取可用性ip更加方便一点,这里利用flask框架做了一个API,这个接口连接着redis数据库;

当打开这个api开关时,直接从redis数据库中随机获取一个分数等级高的ip,用户可以通过访问这个接口(提供的url)就可以获取相应的IP代理。

这四个模块时彼此独立的(例如,当检测一个ip不可用时,需要调用RedisClient来从数据库中删除这个ip),因此需要引入一个新的模块:Schedule来进行协调。

代理池的运作关系如下图:

image

代码实现部分

在构建ip代理池过程中,如果使用redis数据库和flask框架,则需要提前完成相关配置。

部分代码:

class Tester(object):
    def __init__(self):
        self.redis =Redisclient()

    async def text_single_proxy(self,proxy):
        '''
        测试单个代理的可用性;
        :param proxy: 单个代理;
        :return:
        '''
        conn = aiohttp.TCPConnector(verify_ssl=False)
        async with aiohttp.ClientSession(connector=conn) as session:
            try:
                if isinstance(proxy,bytes):
                    proxy =proxy.decode('utf-8')
                real_proxy = 'http://'+proxy
                async with session.get(TEXT_URL,proxy = real_proxy,timeout = 15) as response:
                    if response.status in VAILD_SATTUS_CODES:
                        self.redis.max(proxy)
                        print('')
                        print('代理可用',proxy)
                    else:
                        self.redis.decrease_proxy(proxy)
                        print('请求响应码不合法',proxy)
            except (TimeoutError,AttributeError):
                self.redis.decrease_proxy(proxy)
                print('代理请求失败')
    def run(self):

        '''
        调用主函数;
        :return:
        '''
        print('测试器开始运行')
        try:
            proxies = self.redis.get_all_prpxy()
            loop =asyncio.get_event_loop()
            #批量测试
            for i in range(0,len(proxies),BATCH_TEXT_SIZE):
                test_proxies = proxies[i:i+BATCH_TEXT_SIZE]
                tasks = [self.text_single_proxy(proxy) for proxy in test_proxies]
                loop.run_until_complete(asyncio.wait(tasks))
                time.sleep(5)
        except Exception as e:
            print('测试器发生错误',e.args)
ip代理池实现效果
  • 获取、测试代理:


    image

  • Flask_api接口获取代理:


    image

以上是ip代理池的整个搭建过程,但是与映射于一句话 最便宜的也就是最贵的一样,源于免费,会造成大量用户使用,并且ip的质量堪忧,远不如付费ip。关于全部源码的获取方式:关注微信公众号:Z先生点记,后台回复关键词:ip代理0907 即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小张Python1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值