python 3 爬虫获取可用ip地址（小白）

最新推荐文章于 2024-07-11 04:20:56 发布

阿_波_

最新推荐文章于 2024-07-11 04:20:56 发布

阅读量2.9k

点赞数 1

分类专栏： python3 文章标签： python 爬虫

本文链接：https://blog.csdn.net/li1615882553/article/details/78754855

版权

python3 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

前几天刚刚把正则表达式看了一些，也是只是稍微懂了一点点，所以想要写一个简单的程序试一下。然后就想到了以前在找免费的代理的时候有好多不能用的，所以就尝试着写了一个这样的爬虫程序，写的不是很好，写的很复杂，等以后再去写简洁一些吧。

先直接把代码弄上，然后再说一下里面的重点内容。

import re
import urllib.request
import  socket

def get_line(html):
    '''将对于ip有用的内容返回，返回值是列表!'''
    line_re = re.compile(r'(?:td>)(.+)(?:</td>)')
    list = line_re.findall(html)
    return list

def get_ip(html):
    '''得到所有的ip内容，以列表的形式返回!'''
    list = get_line(html)
    ip_re = re.compile(r'(?:25[0-5]\.|2[0-4]?\d\.|[01]?\d\d?\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d\d?)\b')
    ans_list = []
    list_len = len(list)
    str = ""
    for item in list:
        if ip_re.match(item) != None:
            ans_list.append(str)
            str = ''
            str += item
            continue
        if re.search('[\u4e00-\u9fa5]+',item) == None:
            str += '\t' + item
    return ans_list

def Judge_ip(ip_list):
    '''检查ip是否可以用......'''
    url = 'http://ip.chinaz.com/getip.aspx'
    f = open('E:\\python_py\output.txt', 'w')
    #socket.setdefaulttimeout(3)#设置爬取网页的时间限制,还有一种在面的open函数把timeout参数设置为3的方法
    for i in range(0,len(ip_list)):
        ip = ip_list[i].split('\t')
        if len(ip) == 3:
            try:
                proxy = {ip[2]: ip[0] + ':' + ip[1]}
                proxy_support = urllib.request.ProxyHandler(proxy)
                opener = urllib.request.build_opener(proxy_support)
                html = opener.open(url,timeout=3).read()
                f.write(ip_list[i] + '\n')
            except Exception as e:
                print ('代理 '+ ip[0]+' 不可用' )
                continue
    f.close()

if __name__ == '__main__':
    url = 'http://www.xicidaili.com/'
    rep = urllib.request.Request(url)
    rep.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36')
    reponse = urllib.request.urlopen(rep)
    html = reponse.read().decode('utf-8')
    ip_list = get_ip(html)
    Judge_ip(ip_list)

用到的正则表达式内容：

ip_re = re.compile(r'(?:25[0-5]\.|2[0-4]?\d\.|[01]?\d\d?\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d\d?)\b')
line_re = re.compile(r'(?:td>)(.+)(?:</td>)')
re.search('[\u4e00-\u9fa5]+',item)

ip_re 表示的是匹配一个代理IP地址

我们发现在IP地址的有用的信息两边都存在着<td>和<\td>所以就先把这个之间的内容提取出来，对应着正则表达式：line_re 的内容

第三个是匹配其中是否含有汉字信息，我们这里匹配的内容是IP地址，IP端号，以及IP类型，我们发现除了这三个内容之外，别的都是存在汉字的，所以我们需要把有用的信息提取出来，这个就是这个正则表达式的作用

在后面测试表达式是否可用的里面：

我们判断如果连接尝试的阻塞等待时间大于 3 秒的话，我们就认为这个IP地址有问题，所以就被异常所捕获，继续判断后面的IP地址是否可用.......

判断IP可用的使用的网站是：

http://ip.chinaz.com/getip.aspx

然后将可以使用的IP地址写入文件即可