前言
写这个的原因就是参加了一个kaggle比赛,2021 Human Protein Atlas - Single Cell Classification。这个比赛我们要使用公开数据集HPA数据集作为额外的参考数据,这部分的数据量比比赛给出的大得多,处理的过程中不使用多进程那真的太费时间了
推荐一个很好用的包 mlcrate
仔细查查相关知识就知道这个包在kaggle里面挺常用的,不过用于我们日常处理数据也是非常方便。我以前经常用的multiprocessing.poolranhou
from multiprocessing.pool import Pool
def add(a,b):
return a+b
p = Pool(processes=2)
hh = p.map(add, [[1, 2], [3,4]])
p.close()
p.join()
1.mlc.SuperPool
其实我就想指定它使用多进程。其他的什么close,join我是不想写的,而且能看到处理进度当然最好了。下面这个函数就能很好的实现,我们只需要指定进程数,输入操作的函数还有输入进函数的参数即可。
代码如下(示例):
import mlcrate as mlc
def get_cell_images(data):
pass
for _, image_list in ss_df.iterrows():
seg_list.append([_, image_list, suffix_name])
pool = mlc.SuperPool(8)
pool.map(get_cell_images, seg_list, description='get cell images')
print('\nsuccess!')
给个正在运行的截图,可以明显感觉快很多的。倍速级别加速处理。