python利用joblib进行并行数据处理

在数据量比较大的情况下,数据预处理有时候会非常耗费时间。

可以利用 joblib 中的 Parallel 和 delayed 进行多CPU并行处理

示例如下:

import random
import os
from glob import glob
from tqdm import tqdm
from joblib import Parallel, delayed
import soundfile as sf
import pycantonese as pct
from opencc import OpenCC

cc = OpenCC('s2hk')

######### ljspeech ##########
def process_ljspeech_one_utterance(wav_path, text, mode, save_root):
    try:
        tmp = wav_path.split('/')
        spk = 'LJSpeech-1.1'
        wname = tmp[-1]
        tname = wname.replace('.wav','.txt')
        text_to_path = f'{save_root}/{mode}/{spk}/{tname}'

        os.makedirs(os.path.dirname(text_to_path), exist_ok=True)
        fp = open(text_to_path, 'w')
        fp.write(text)
        fp.close()

        wav_to_path = f'{save_root}/{mode}/{spk}/{wname}'

        _, fs = sf.read(wav_path)
        if fs != 16000:
            cmd = f'sox {wav_path} -r 16000 {wav_to_path}'
        else:
            cmd = f'cp {wav_path} {wav_to_path}'
        os.system(cmd)
        assert False
    
    except BaseException:
        return
       
    
wavs_root = 'source_data/LJSpeech/LJSpeech-1.1'

data = []
with open(f'{wavs_root}/metadata.csv', 'r') as f:
    lines = f.readlines()
    for line in lines:
        uttid = line.strip().split('|')[0]
        wav_path = f'{wavs_root}/wavs/{uttid}.wav'
        text = line.strip().split('|')[2]
        data.append([wav_path, text])
    f.close()

valid_data = random.sample(data, 100)
train_data = [dt for dt in data if dt not in valid_data]

Parallel(n_jobs=20)(delayed(process_ljspeech_one_utterance)(wav_path, text, mode='train', save_root='wavs/LJSpeech') for wav_path,text in tqdm(train_data))
Parallel(20)(delayed(process_ljspeech_one_utterance)(wav_path, text, mode='valid', save_root='wavs/LJSpeech') for wav_path,text in tqdm(valid_data))
# Parallel(n_jobs=20): 指定20个CPU(默认是分配给不同的CPU)


all_wavs = glob('wavs/LJSpeech/*/*/*.wav')
print(f'obtain {len(all_wavs)} wavs...')

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种具有简洁语法和丰富库的编程语言,常用于数据分析和科学计算。然而,Python的解释器默认是单线程执行的,这在执行复杂计算任务时可能会导致效率问题。为了解决这个问题,可以使用joblib库来实现并行计算。 Joblib是一个Python库,它基于numpy和Python的multiprocessing模块,提供了一种简单方便的方式来进行并行计算。它的主要功能是将Python函数并行执行,并将计算结果或中间状态保存在内存中。 使用Joblib进行并行计算非常简单,只需将需要并行执行的任务封装成函数,然后使用joblib库提供的Parallel函数来执行。Parallel函数可以指定并行任务的数量,支持多线程和多进程,具体根据计算任务的特点选择。除了使用Parallel函数,还可以使用joblib库提供的其他功能,如内存映射、并行迭代器等。 使用Joblib可以大大提高计算任务的执行效率,尤其是在处理大量数据或复杂计算任务时。它有效地利用了多核处理器的并行计算能力,将计算任务分配给多个线程或进程同时执行,大大缩短了计算时间。 总之,Pythonjoblib库是一种非常有用的工具,可以方便地进行并行计算。它为Python用户提供了简单易用的接口,帮助用户充分发挥多核处理器的并行计算能力,提高程序的执行效率。无论是在科学计算、数据分析还是机器学习领域,使用joblib都能带来很大的便利和效益。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值