scrapy爬虫代理池

最新推荐文章于 2022-07-21 15:05:46 发布

weixin_34226182

最新推荐文章于 2022-07-21 15:05:46 发布

阅读量3.5k

点赞数

文章标签：爬虫 python git

原文链接：https://juejin.im/post/5b84feede51d4538a01ec68c

版权

前言：

在日常爬虫过程中，如果我们只用一个ip去访问爬取等操作，很可能就会被浏览器给封，所以我们得用一个ip代理池，然后访问过程随机切换代理ip，这样浏览器就不会认为我们是恶意攻击了

获取ip代理池

我是在github上面看到的，这里也会把过程记录下来：

1.下载源码：

git clone git@github.com:jhao104/proxy_pool.git

或者直接到https://github.com/jhao104/proxy_pool 下载zip文件

复制代码

2.安装依赖

pip install -r requirements.txt
复制代码

3.配置Config.init:

# Config.ini 为项目配置文件
# 配置DB
type = SSDB       # 如果使用SSDB或redis数据库，均配置为SSDB
host = localhost  # db host
port = 8888       # db port
name = proxy      # 默认配置

# 配置 ProxyGetter
freeProxyFirst  = 1  # 这里是启动的抓取函数，可在ProxyGetter/getFreeProxy.py 扩展
freeProxySecond = 1
....

# 配置 HOST (api服务)
ip = 127.0.0.1       # 监听ip,0.0.0.0开启外网访问
port = 5010          # 监听端口
# 上面配置启动后，代理api地址为 http://127.0.0.1:5010
复制代码

启动：

如果前面程序都完成了，接下来你可以启动程序了，进入Run目录，

运行： python main.py

查看

启动过几分钟后就能看到抓取到的代理IP，你可以直接到数据库中查看，推荐一个SSDB可视化工具。也可以通过api访问http://127.0.0.1:5010 查看。

Api

/get GET 随机获取一个代理 None

/get_all GET 获取所有代理 None

/get_status GET 查看代理数量 None

/delete GET 删除代理 proxy=host:ip

我通过浏览器输入：http://127.0.0.1:5010/get_all/

得到如下效果：

[
    "202.100.83.139:80",
    "117.127.0.197:80",
    "218.60.8.98:3129",
    "117.127.0.197:8080",
    "218.60.8.99:3129",
    "219.141.153.43:80",
    "114.215.95.188:3128",
    "219.141.153.35:80",
    "219.141.153.10:80",
    "219.141.153.3:80",
    "117.127.0.203:8080",
    "116.62.194.248:3128",
    "221.14.140.130:80",
    "223.93.172.248:3128",
    "118.190.95.43:9001",
    "88.99.149.188:31288",
    "140.143.96.216:80",
]
复制代码

爬虫中使用

如果要在爬虫代码中使用的话，可以将此api封装成函数直接使用，例如：

import requests

def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").content

def delete_proxy(proxy):
    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))

# your spider code

def getHtml():
    # ....
    retry_count = 5
    proxy = get_proxy()
    while retry_count > 0:
        try:
            html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
            # 使用代理访问
            return html
        except Exception:
            retry_count -= 1
    # 出错5次, 删除代理池中代理
    delete_proxy(proxy)
    return None
复制代码

weixin_34226182

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫代理池

前言：在日常爬虫过程中，如果我们只用一个ip去访问爬取等操作，很可能就会被浏览器给封，所以我们得用一个ip代理池，然后访问过程随机切换代理ip，这样浏览器就不会认为我们是恶意攻击了获取ip代理池我是在github上面看到的，这里也会把过程记录下来：1.下载源码：git clone [email protected]:jhao104/proxy_pool.git或者直接到https://gi...
复制链接

扫一扫