Python3 多线程threading处理xlsx/csv数据

Python如果单线程执行代码去处理数万个xlsx,包括读出和写入的操作,整个过程耗时会很长。本文以处理一批15000个csv文件为例,对比Python3单线程和多线程处理效率。

任务:每一个csv包括三个波段的内容,将其分解成三个波段,总共产生45000个文件。

import os
from pandas import Series
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import cmath
import  math
import shutil
from scipy.optimize import curve_fit
from scipy import signal
import time
import threading

1)单线程处理代码,如下:


def hylidar_split(input_raw,split_dir):
    """split 3 channels in one file to one channel in one file"""
    fns_raw = os.listdir(input_raw)
    for i in range(len(fns_raw)):
        df = pd.read_csv(os.path.join(input_raw + '\\', fns_raw[i]))
        ch2_name = fns_raw[i][-20:-16]
        ch3_name = fns_raw[i][-15:-11]
        ch4_name = fns_raw[i][-10:-6]
        #Emittted_bb == Emitted broad band
        df.rename(columns={'channel1': 'Emitted_bb', 'channel2': ch2_name, 'channel3': ch3_name, 'channel4': ch4_name}, inplace=True)#将列重命名一下
        #split_dir + '\\' + fns_raw[i][:-23]  + ch2_name + fns_raw[i][-6:]
        #F:\SCI1数据处理\d8_2process\d8_2split +\\+试验d8_2_X_-10_Y_-10+ch01+_1.csv
        df[['time', 'Emitted_bb', ch2_name]].to_csv(split_dir + '\\' + fns_raw[i][:-24]  + ch2_name + fns_raw[i][-6:],index=False)#选择需要的列生产新csv文件
        df[['time', 'Emitted_bb', ch3_name]].to_csv(split_dir + '\\' + fns_raw[i][:-24]  + ch3_name + fns_raw[i][-6:],index=False)
        df[['time', 'Emitted_bb', ch4_name]].to_csv(split_dir + '\\' + fns_raw[i][:-24]  + ch4_name + fns_raw[i][-6:],index=False)
        del df

if __name == "__main__":
	rawdata_dir = "F:\\leaf data\\WT梧桐\\叶片"
    split_dir = "F:\\leaf data\\WT梧桐\\split_wt"
    beginning_time = time.time()
    localtime = time.asctime( time.localtime(time.time()) )
    
    hylidar_split(rawdata_dir, split_dir)
    
    ending_time = time.time()
    time_cost = (ending_time - beginning_time)/60 
    localtime = time.asctime( time.localtime(time.time()) )
    print("end at :",localtime)
    print("process took",time_cost,"minutes!")

输出:

end at : Thu Nov 19 16:23:55 2020
process took 4.528384971618652 minutes!

2)多线程处理代码,如下:

def hylidar_split(fns_raw,rawdata_dir,split_dir):
    """split 3 channels in one file to one channel in one file"""
    for i in range(len(fns_raw)):
        df = pd.read_csv(rawdata_dir+'\\'+fns_raw[i])
        ch2_name = fns_raw[i][-20:-16]
        ch3_name = fns_raw[i][-15:-11]
        ch4_name = fns_raw[i][-10:-6]
        #Emittted_bb == Emitted broad band
        df.rename(columns={'channel1': 'Emitted_bb', 'channel2': ch2_name, 'channel3': ch3_name, 'channel4': ch4_name}, inplace=True)#将列重命名一下
        #split_dir + '\\' + fns_raw[i][:-23]  + ch2_name + fns_raw[i][-6:]
        #F:\SCI1数据处理\d8_2process\d8_2split +\\+试验d8_2_X_-10_Y_-10+ch01+_1.csv
        df[['time', 'Emitted_bb', ch2_name]].to_csv(split_dir + '\\' + fns_raw[i][:-24]  + ch2_name + fns_raw[i][-6:],index=False)#选择需要的列生产新csv文件
        df[['time', 'Emitted_bb', ch3_name]].to_csv(split_dir + '\\' + fns_raw[i][:-24]  + ch3_name + fns_raw[i][-6:],index=False)
        df[['time', 'Emitted_bb', ch4_name]].to_csv(split_dir + '\\' + fns_raw[i][:-24]  + ch4_name + fns_raw[i][-6:],index=False)
        del df

if __name__ == "__main__":
    
    rawdata_dir = "F:\\leaf data\\WT梧桐\\叶片"
    split_dir = "F:\\leaf data\\WT梧桐\\split_wt"
    
    beginning_time = time.time()
    localtime = time.asctime( time.localtime(time.time()) )
    print("beginning at :",localtime)
    #wl = [409, 425, 442, 458, 474, 491, 507, 523, 540, 556, 572, 589, 605, 621, 637, 653, 670, 686, 703, 719, 735, 751, 768, 784,800, 816, 833, 840, 865, 882, 898, 914]
    n_threads = 16
    thread_list = []
    fns_raw = os.listdir(rawdata_dir)
    step = int(len(fns_raw)/n_threads)
    count = 0
    for item in range(n_threads):
        current_fns = fns_raw[count:count+step]
        thread = threading.Thread(target = hylidar_split,args=(current_fns,rawdata_dir,split_dir,))
        thread_list.append(thread)
        thread.start()
        count+=step
    for item2 in thread_list:
        item2.join()
    ending_time = time.time()
    time_cost = (ending_time - beginning_time)/60 
    localtime = time.asctime( time.localtime(time.time()) )
    print("end at :",localtime)
    print("process took",time_cost,"minutes!")

输出:

end at : Thu Nov 19 22:10:37 2020
process took 3.288083263238271 minutes!

减少1.3mins.
从这个例子来看,并没有减少多长时间。
另外也试过Python3最新的线程池
from concurrent.futures import ThreadPoolExecutor
以及多进程处理
import multiprocessing
时间均为3分多一点。
不知是逻辑不对,理解不到位还是哪里的问题,我计算机16线程全部用上,也才减少一分钟。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Python多线程是通过threading模块来实现的。它允许程序在同一时间内执行多个线程,从而提高程序的效率。使用多线程可以让程序在执行耗时操作时不会阻塞主线程,从而提高程序的响应速度。在Python中,使用threading模块创建线程非常简单,只需要继承Thread类并实现run方法即可。同时,Python还提供了一些线程同步的机制,如锁、信号量、条件变量等,可以保证多个线程之间的数据同步和互斥访问。 ### 回答2: Python 是一种非常常用的编程语言,它的一个主要特点是它可以方便快捷地处理并行任务。Python处理并行任务的机制有很多,其中最常用的机制是多线程 threading多线程是指在一个程序中同时运行多个线程,这些线程可以共享一些系统资源,如 CPU 和内存。这样做的好处是可以使程序运行更加高效,快速地响应用户的操作。多线程因其高效、灵活、易于实现等特点,在多种应用场景中得到了广泛应用。 Python 中的 threading 模块是用于实现基本多线程功能的标准库之一。使用 threading 模块可以轻松创建和管理多个线程。可以使用 threading.Thread() 函数实例化一个线程对象和它相应的线程函数,然后通过调用 start() 方法启动该线程。在 start() 方法被调用之后,线程就开始了运行,并可以执行与其他线程并行运行的一些任务。当线程运行完所需任务之后,可以使用 join() 方法阻塞主线程,以等待该线程的结束。 使用 threading 模块,还可以使用锁(lock)机制来控制多个线程对于共享资源的访问。锁机制允许线程互斥地访问共享资源,以避免线程之间的竞争和冲突。如果有多个线程都希望使用同一个共享资源,可以使用 threading.Lock() 函数创建一个锁对象,然后使用 acquire() 方法获取锁,使用 release() 方法释放锁。 需要注意的是,虽然多线程可以提高程序运行的效率,但不当地使用多线程也可能会导致程序出现并发问题,如死锁等。因此,在使用多线程时,应谨慎地考虑各个线程对于共享资源的访问顺序和方式,以确保程序的安全和正确性。 总之,Python 中的多线程 threading 机制是非常强大和灵活的。通过它我们可以轻松地实现并行处理的功能,提高程序的效率和性能。但在使用多线程时,需要注意确保程序的安全和正确性,避免出现并发问题。 ### 回答3: Python多线程模块threadingPython中实现多线程的解决方案之一。threading模块提供了一个Thread类作为多线程的基础,可以通过派生Thread子类和重写它的run()方法来定义线程的行为。 Python多线程实现为“线程全局解释器锁(Global Interpreter Lock,GIL)”模型,即同一进程中多个线程共享一个解释器,而只有一个线程可以执行Python代码(线程安全的C扩展模块除外)。这意味着,Python多线程无法实现真正的并行执行,只能通过多个线程之间的切换来实现并发。 使用Python多线程可以带来以下优点: 1. 提高程序响应速度:可以让程序在等待I/O的同时继续执行其他任务,提高了程序的并发处理能力。 2. 更好地利用多核CPU:虽然Python多线程不能实现真正的并行执行,但可以在多核CPU上将任务分配到不同的核上执行,从而更好地利用CPU资源。 3. 代码可读性高:Python多线程的实现相对简单,代码易读易懂。 然而,在使用Python多线程的过程中,也需要注意以下问题: 1. 线程同步问题:由于多个线程可能同时访问共享的数据,因此需要使用锁、信号量等线程同步机制来避免线程冲突。 2. 可能会出现死锁和饥饿问题:死锁是指多个线程相互等待对方释放资源而无法继续执行,饥饿是指某个线程因调度算法等原因无法获得执行机会。这些问题需要仔细设计线程的互动方式来避免。 3. Python多线程无法利用CPU的多核处理能力:Python的GIL模型限制了同一时刻只有一个线程能执行Python代码,因此无法利用多核CPU实现真正的并行处理。 总之,Python多线程是一种方便实用的线程处理方式,可以有效提高程序的并发处理能力,但也需要注意线程同步等问题,对于高性能的性能要求,建议使用Python中的进程池等多进程方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值