python获取代理IP

最新推荐文章于 2022-11-11 16:25:36 发布

HelloHaibo

最新推荐文章于 2022-11-11 16:25:36 发布

阅读量7k

点赞数 1

分类专栏： python 文章标签： python 模块化函数爬虫代理IP

本文链接：https://blog.csdn.net/HelloHaibo/article/details/77513731

版权

本文介绍了一个Python脚本，用于从xicidaili.com网站获取免费代理IP，并通过多线程检查其可用性。脚本使用正则表达式抓取IP和端口，然后通过访问特定URL验证代理的有效性，最终返回一个可用代理IP列表。

摘要由CSDN通过智能技术生成

 
 平时当我们需要爬取一些我们需要的数据时，总是有些网站禁止同一IP重复访问，这时候我们就应该使用代理IP，每次访问前伪装自己，让“敌人”无法察觉。 

 
 oooooooooooooooOK，让我们愉快的开始吧！ 

 
 这个是获取代理ip的文件，我将它们模块化，分为三个函数 

 
 注：文中会有些英文注释，是为了写代码方便，毕竟英文一两个单词就ok了 

#!/usr/bin/python
#-*- coding:utf-8 -*-

"""
author:dasuda
date:2017.08.24
转载请注明出处，谢谢

"""
import urllib2
import re
import socket
import threading

findIP = [] #获取的原始IP数据
IP_data = []  #拼接端口后的IP数据
IP_data_checked = [] #检查可用性后的IP数据
findPORT = [] #IP对应的端口
available_table = [] #可用IP的索引

def getIP(url_target):
    patternIP = re.compile(r'(?<=<td>)[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}')
    patternPORT = re.compile(r'(?<=<td>)[\d]{2,5}(?=</td>)')
    print "now,start to refresh proxy IP..."
    for page in range(1,4):
        url = 'http://www.xicidaili.