代理池篇（二）简单代理清洗程序

最新推荐文章于 2024-04-24 19:30:05 发布

StarLord007

最新推荐文章于 2024-04-24 19:30:05 发布

阅读量358

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/q1694222672/article/details/82717594

版权

爬虫专栏收录该内容

19 篇文章 1 订阅

订阅专栏

此为第二步，将得到的代理进行清洗，将可用的入库

简单清洗程序

原理：多线程跑检测代理，源数据从数据库中取出，反正 Redis可每秒取数据11万次，一定要多线程，这里主要网络请求占用时间长，所以多线程，我也不知道多少是个多，自己试吧

import requests,threading,time
from redis import Redis
redis = Redis(host='127.0.0.1',db=7)


def wash_ip():
    print('线程{}启动'.format(threading.current_thread().name))
    #检测源数据的数量，到达临界值则停止循环，线程也就停了
    while redis.llen('nowashhttp')>5:
        i = str(redis.lpop('nowashhttp'))[2:-1]#因为取出的数据是二进制字符串，所以要转str，还要去除那个b和引号
        print(i)
        proxies = {'http': 'http://' + i,
                   'https': 'https://' + i}
        test_url = 'https://www.baidu.com/'
        try:
        #这个timeout是抄的，以前我一直写1，还以为能用的本来的就少，一看别人写的检测代理才知道我检测出来的都算是高响应了
            r = requests.get(test_url,proxies=proxies, timeout=15)
            if r.status_code == 200:
                print(i + '可用')
                redis.sadd('validip',i)
        except:
            pass

if __name__ == '__main__':
    for i in range(100):
        threading.Thread(target=wash_ip).start()

存至数据库时使用集合类型，因为直接去重，检测代理，时间大都花在网络请求上了，个人试多线程数量，感觉60跟100并无太大差异，但8和60差别就海了去了

检测结果

这里写图片描述

下一步，用flask写接口，个人感觉如果用Django的话写一个好看的界面出来，专门做一个及时响应代理资源站也是不错的，但爬虫工程师不需要界面，要的是能用，好用，快，多！

StarLord007

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
代理池篇（二）简单代理清洗程序

此为第二步，将得到的代理进行清洗，将可用的入库简单清洗程序原理：多线程跑检测代理，源数据从数据库中取出，反正 Redis可每秒取数据11万次，一定要多线程，这里主要网络请求占用时间长，所以多线程，我也不知道多少是个多，自己试吧import requests,threading,timefrom redis import Redisredis = Redis(host='12...
复制链接

扫一扫