ip 代理池的获取

没充钱只能捡捡别人剩下的,,,拿着别人免费的ip一个个试吧,可行率极低,,,

在http://www.xicidaili.com/nt/上爬取ip

附上其他还不错的网站:

http://www.66ip.cn/

http://www.coobobo.com/

http://cn-proxy.com/

https://www.kuaidaili.com/free/inha/

在http://2017.ip138.com/ic.asp上验证ip可行性

import random,requests,time,re
from fake_useragent import UserAgent 

def get_random_header():
    header = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",
        'Referer': 'http://www.xicidaili.com/wt',
    }
    return header

def test_ip(ip,test_url='http://2017.ip138.com/ic.asp',time_out=3):
    proxies={'http': ip[0]+':'+ip[1]}
    try_ip=ip[0]
    #print(try_ip)
    try:
        r=requests.get(test_url,headers=get_random_header(),proxies=proxies,timeout=time_out)
        if r.status_code==200:
            r.encoding='gbk'
            result=re.search('\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}',r.text)
            result=result.group()
            if result[:9]==try_ip[:9]:
                print(r.text)
                print('测试通过')
                return True
            else:
                #print('%s:%s 携带代理失败,使用了本地IP' %(ip[0],ip[1]))
                return False    
        else:
            #print('%s:%s 请求码不是200' %(ip[0],ip[1]))
            return False
    except:
        #print('%s:%s 请求过程错误' %(ip[0],ip[1]))
        return False

def   scraw_proxies(page_num,scraw_url="http://www.xicidaili.com/nt/"):
    scraw_ip=list()
    available_ip=list()
    for page in range(1,page_num):
        print("抓取第%d页代理IP" %page)
        url=scraw_url+str(page)
        r=requests.get(url,headers=get_random_header())
        r.encoding='utf-8'
        pattern = re.compile('<td class="country">.*?alt="Cn" />.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>', re.S)
        scraw_ip= re.findall(pattern, r.text)
        print(scraw_ip)
        for ip in scraw_ip:
            if(test_ip(ip)==True):
                print('%s:%s通过测试,添加进可用代理列表' %(ip[0],ip[1]))
                available_ip.append(ip)
                                    
            else:
                pass    
        print("代理爬虫暂停10s")
        time.sleep(10)
        print("爬虫重启")
    print('抓取结束')
    return available_ip

if __name__=="__main__":
    available_ip=scraw_proxies(3)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值