python 如何使用多进程快速处理数据


前言

写这个的原因就是参加了一个kaggle比赛,2021 Human Protein Atlas - Single Cell Classification。这个比赛我们要使用公开数据集HPA数据集作为额外的参考数据,这部分的数据量比比赛给出的大得多,处理的过程中不使用多进程那真的太费时间了


推荐一个很好用的包 mlcrate

仔细查查相关知识就知道这个包在kaggle里面挺常用的,不过用于我们日常处理数据也是非常方便。我以前经常用的multiprocessing.poolranhou

from multiprocessing.pool import Pool
def add(a,b):
	return a+b
 
p = Pool(processes=2)
hh = p.map(add, [[1, 2], [3,4]])
p.close()
p.join()

1.mlc.SuperPool

其实我就想指定它使用多进程。其他的什么close,join我是不想写的,而且能看到处理进度当然最好了。下面这个函数就能很好的实现,我们只需要指定进程数,输入操作的函数还有输入进函数的参数即可。

代码如下(示例):

import mlcrate as mlc
def get_cell_images(data):
	pass
	
for _, image_list in ss_df.iterrows():
    seg_list.append([_, image_list, suffix_name])
    
pool = mlc.SuperPool(8)
pool.map(get_cell_images, seg_list, description='get cell images')
print('\nsuccess!')

给个正在运行的截图,可以明显感觉快很多的。倍速级别加速处理。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值