Proxy池-模块使用

为应对网站的IP限制反爬措施,本文档介绍了搭建的IP代理池模块,旨在方便爬虫业务的进行。项目包括IP代理池的调用方式,使用元类实现方法自动调用,以及如何拓展抓取方法和添加测试网站。
摘要由CSDN通过智能技术生成

Proxy池-模块说明


由于爬虫业务大部分涉及电商、行业数据、资讯价值数据,被爬方一般为了反爬取,大部分会采用初级的反爬措施,其中较为常用的就是IP限制。
为方便爬取网站,搭建了IP池模块,供大家可以使用。
  • 项目结构:
proxypool
│   __init__.py
│   proxy_provider.txt    
│   requirements.txt 
│   run.py
│   README.md
└───proxypool
    │   __init__.py
    │   crawler.py
    │   db.py
    │   error.py  
    │   getter.py
    │   importer.py
    │   scheduler.py
    │   setting.py
    │   tester.py
    │   utils.py
    │

  • IP代理池调用

    • 调用Get_Proxy()中的 process_request 返回随机得分高的IP
import logging
import redis
from random import choice

class Get_Proxy():
    def __init__(self,host,port):
        self.logger = logging.getLogger(__name__)
        self.REDIS_KEY = 'proxies' #
        self.MAX_SCORE = 100
        # 连接数据库
        pool = redis.ConnectionPool(host=host,port=port)
        self.db 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值