代理池篇(二)简单代理清洗程序

此为第二步,将得到的代理进行清洗,将可用的入库

简单清洗程序

原理:多线程跑检测代理,源数据从数据库中取出,反正 Redis可每秒取数据11万次,一定要多线程,这里主要网络请求占用时间长,所以多线程,我也不知道多少是个多,自己试吧

import requests,threading,time
from redis import Redis
redis = Redis(host='127.0.0.1',db=7)


def wash_ip():
    print('线程{}启动'.format(threading.current_thread().name))
    #检测源数据的数量,到达临界值则停止循环,线程也就停了
    while redis.llen('nowashhttp')>5:
        i = str(redis.lpop('nowashhttp'))[2:-1]#因为取出的数据是二进制字符串,所以要转str,还要去除那个b和引号
        print(i)
        proxies = {'http': 'http://' + i,
                   'https': 'https://' + i}
        test_url = 'https://www.baidu.com/'
        try:
        #这个timeout是抄的,以前我一直写1,还以为能用的本来的就少,一看别人写的检测代理才知道我检测出来的都算是高响应了
            r = requests.get(test_url,proxies=proxies, timeout=15)
            if r.status_code == 200:
                print(i + '可用')
                redis.sadd('validip',i)
        except:
            pass

if __name__ == '__main__':
    for i in range(100):
        threading.Thread(target=wash_ip).start()
存至数据库时使用 集合类型,因为直接去重,检测代理,时间大都花在网络请求上了,个人试多线程数量,感觉60跟100并无太大差异,但8和60差别就海了去了

检测结果

这里写图片描述

下一步,用flask写接口,个人感觉如果用Django的话写一个好看的界面出来,专门做一个及时响应代理资源站也是不错的,但爬虫工程师不需要界面,要的是能用,好用,快,多!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值