获取免费代理IP，并检验IP有效性_检测代理有效性-CSDN博客

本文链接：https://blog.csdn.net/uvyoaa/article/details/80928862

本文介绍了如何利用Python从指定网站抓取免费代理IP，并通过正则表达式提取所需数据。同时，讨论了代理IP的保存方式和有效性检查，确保在爬虫过程中避免IP被封的风险。提供了一个检查代理IP有效性的代码示例，涉及多进程处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫程序访问网站，速度很快，很容易突破网站设置的访问次数，此情况下就会被停止访问，或者IP被封。如果此时能有一些代理IP，切换不同的代理IP去访问网站，使网站以为是从不同的机器上访问的，那么代理IP背后的自己的IP就不受影响了。就算用了代理IP也不要频繁访问网站，因为要为网站考虑一下它的压力。

1.从http://www.xicidaili.com/nn/1里获取免费代理IP。打开网页，查看源代码，分析代码结构，找到你需要的数据，用正则把用它找出来。正则表达式是 r'<td>(([1-9]\.|[1-9][0-9]\.|1[0-9]{2}\.|2[0-4][0-9]\.|25[0-5]\.){3}([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]))</td>\s+<td>(\d{2,5})</td>'。

2.把代理IP保存文件，留着用。但代理IP变化很快，有可能一会功夫就不能用了。所以在需要的时候抓取一下就行了。可以保存在文件里，也可以保存在数据库里。

3.检查代理IP有效性。这个操作可以放在每次抓取页面前，如果不能用就切换其他代理IP，同时把这个不能用的代理IP移除。

代码如下：分两个文件，一个获取代理IP，一个检查有效性(另外有多进程检查)。

# -*- coding: utf-8 -*- 
'''
从www.xicidaili.com获取代理IP，并保存文件
'''
import urllib.requ