解锁网络无限可能:揭秘微软工程师力作——付费代理IP池深度改造与实战部署指南

基于付费代理的代理IP池

项目来源

此项目为微软某个工程师构建的代理IP池,我对此进行了改造。可以用于生产环境中的爬虫项目

阅读前建议

阅读我之前发布的爬虫基础的文章,了解代理如何获取、使用等。

分为四大模块

  1. 代理生成
    • 基于购买的付费代理接口获取代理IP,利用redis数据库的有序集合进行存储。初始序为10。
    • 检测模块检测时,若检测成功,将序变为100,若检测失败,将序减一,直至减为0则抛弃此代理
  2. 代理检测利用redis数据库的zsan方法每次从数据库中取出20条数据和游标,每20条20条地进行检测。
    • 首先检测代理IP的格式(检测是否含有冒号,若有则根据冒号进行分割获取IP和Port,分别检测IP(根据 ‘.’ 进行分割,判断是否包含4部分且每部分是证书且在0到255之间则为有效)和Port(判断是否是整数)
    • 之后检测代理IP是否可用,找一个检测IP网站。不加代理访问并记作IP1,加代理访问记作IP2,判断IP1和IP2是否不相等,再判断加的代理IP和IP2是否相等,来决定此代理是否有效
    • 再用此代理IP去访问通用的网站(百度)或者你要爬取的网站,如果状态码在200到302之间,那么认为代理IP检测通过,将序改为100,若检测失败,则将序减一
    • 检测模块采取了协程机制,增加检测速度
  3. 代理存储
    • 封装了redis数据库的一些操作供其他三个模块调用
  4. 接口模块
    • 将代理IP从redis数据库中读出,通过Flask开接口的方式展示到前台。
    • 展示代理规则:优先随机展示序为100的,没有100的再随机展示序为10到100的

本地部署

前提:电脑已经装好了redis和redis可视化工具(如果不会装,可以私信我)

  1. conda 建立一个虚拟环境

    conda create -n new_env python=3.x  # 替换 x 为你需要的 Python 版本 
    
  2. 激活新建环境

    conda activate new_env
    
  3. 安装依赖项

    pip install -r requirments.txt
    
  4. 更改项目 settings.py 配置项

    # redis host
    REDIS_HOST = env.str('REDIS_HOST', '127.0.0.1')
    # redis port
    REDIS_PORT = env.int('REDIS_PORT', 6379)
    # redis password, if no password, set it to None
    REDIS_PASSWORD = env
  • 26
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值