代理IP 多线程伪造表头爬虫小框架

最新推荐文章于 2024-04-15 16:30:00 发布

伊玛目的门徒

最新推荐文章于 2024-04-15 16:30:00 发布

阅读量245

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/qq_37195257/article/details/104376444

版权

python 同时被 2 个专栏收录

85 篇文章 6 订阅

订阅专栏

爬虫

29 篇文章 0 订阅

订阅专栏

翻到一个两年前写的爬虫小框架

# coding=utf-8

import tushare as ts
import pandas as pd
import requests
import json
import re
import time
from retrying import retry
from concurrent.futures import ThreadPoolExecutor
import random

def get_pro():
    list = ['122.114.31.177:808', '61.135.217.7:80', '113.121.243.109:808', '171.39.40.5:8123', '121.31.199.30:8123',
            '111.155.116.240:8123', '125.121.121.171:808', '115.213.178.192:808']

    return list


start = time.clock()  # 计时-开始

urlnum = range(8)
listdo = urlnum


while True:
    listye = []
    listno = []
    event = []
    @retry(stop_max_attempt_number=8)  # 设置最大重试次数
    def crawl(n):

        pro_list = get_pro()

        header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}

        proxies_l = {'http': pro_list[random.randint(0, len(pro_list))],

                     }
        print(proxies_l['http'])

        try:
            req = requests.get('http://httpbin.org/ip', headers=header, proxies=proxies_l)
            print('finish')
            listye.append(n)
            listdo.remove(n)
            print (listdo)

            return  req.text

        except:
            print('no proxies')
            listno.append(n)

    # 多线程
    def multithreading():

        number = listdo

        with ThreadPoolExecutor(max_workers=10) as executor:
            for result in executor.map(crawl, number, chunksize=10):
                event.append(result)

        return event


    event = multithreading()
    print ('listye')
    print (listye)
    print ('listno')
    print (listno)
    print ('listdo')
    print (listdo)




    if len(listdo) == 0:
        break

end = time.clock()  # 计时-结束
print ("爬取完成 用时：")
print (end - start)

伊玛目的门徒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
代理IP 多线程伪造表头爬虫小框架

翻到一个两年前写的爬虫小框架# coding=utf-8import tushare as tsimport pandas as pdimport requestsimport jsonimport reimport timefrom retrying import retryfrom concurrent.futures import ThreadPoolExecutor...
复制链接

扫一扫