Python3随爬虫启动代理池（引用外部Python代码项目并实现多进程并行执行）

最新推荐文章于 2022-02-05 22:48:07 发布

weixin_39858881

最新推荐文章于 2022-02-05 22:48:07 发布

阅读量254

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_39858881/article/details/107910596

版权

Python 专栏收录该内容

13 篇文章 4 订阅

订阅专栏

最近在写某网站爬虫的过程中，遇到了异常访问封禁IP的问题。而且不只是爬虫访问会触发封禁，网页端一次浏览太多页面也会触发反爬保护。

为了解决这个问题，在Github上找到了一个不错的免费IP代理池程序，这个作者通过爬虫爬取了几个免费的IP代理源，并且定期循环对节点进行监测，删除失效代理，将有效代理存储于redis库中。而且，通过向本地特定端口发送请求，即可获取和操作本地IP代理池的代理，配置完成后非常方便。

然而，在使用过程中也发现，每次手动启动代理非常麻烦，所以就想在主爬虫进程启动前，先调用该代理池程序，在爬虫程序完成后，退出前再kill掉相关进程。

经过一段时间的尝试，发现使用subprocess和multiprocessing下的Process两个库可以较为方便地实现在程序内调用另一.py文件，并实现多进程并行，互补影响。

主要代码如下：

if __name__ == '__main__':
    print("启动IP代理池...")
    p_schedule = Process(target=subprocess.call, args=(['python', './ip_pool/proxyPool.py', 'schedule'],))
    p_schedule.start()
    time.sleep(2)
    p_server = Process(target=subprocess.call, args=(['python', './ip_pool/proxyPool.py', 'server'],))
    p_server.start()
    time.sleep(2)
    # ...后续爬虫程序
    # ...后续爬虫程序
    print('程序执行完毕，结束代理池')
    p_schedule.terminate()
    p_server.terminate()
    p_schedule.join()
    p_server.join()