Python采集代理ip并判断是否可用和定时更新

网上有很多免费的ip地址,都是可以使用的,但是如果手动来获取太麻烦,这里通过Python自动抓取,可以批量获取。代码如下:

# -*- coding: utf-8 -*-

import re
import urllib2
import json
import os
import time
import socket


class ProxyIp(object):

    def __init__(self):
        self.path = os.path.split(os.path.realpath(__file__))[0]

    # Get latest proxy ip and download to json
    def update_ip(self):
        print 'Update Ip'
        url = 'http://www.ip3366.net/free/'
        req = urllib2.Request(url)
        response = urllib2.urlopen(req)
        matches = re.findall(
            ur'(\d+.\d+.\d+.\d+)</td>\s+<td>(\d+)</td>\s+<td>.*?</td>\s+<td>(HTTPS?)</td>',
            response.read(),
            re.I
        )
        ls = []
        for match in matches:
            if self.is_open(match[0], match[1]):
                ls.append({'ip':match[0], 'port':match[1], 'protocol': match[2]})

        with open('%s/ip.json' % self.path, 'w') as f:
            json.dump(ls, f)
        return ls

    # whether the ips is last or old.
    def is_last(self):
        m_time = int(os.path.getmtime('%s/ip.json' % self.path))
        now_time = int(time.time())
        return (now_time - m_time) > 60*60*4  # 4 hours

    @staticmethod
    def is_open(ip, port):
        s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        try:
            s.connect(ip, int(port))
            return True
        except:
            print 'Faild IP: %s:%s' % (ip, port)
            return False

    def get_proxy_ips(self):
        if not self.is_last():
            return self.update_ip()
        else:
            with open('%s/ip.json' % self.path, 'r') as f:
                return json.load(f)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小龙在山东

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值