python 如何使用多进程快速处理数据

最新推荐文章于 2024-09-05 17:18:52 发布

qq_42997572

最新推荐文章于 2024-09-05 17:18:52 发布

阅读量421

点赞数

分类专栏： python 应用文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42997572/article/details/114789829

版权

python 应用专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

前言
推荐一个很好用的包 mlcrate
- 1.mlc.SuperPool

前言

写这个的原因就是参加了一个kaggle比赛，2021 Human Protein Atlas - Single Cell Classification。这个比赛我们要使用公开数据集HPA数据集作为额外的参考数据，这部分的数据量比比赛给出的大得多，处理的过程中不使用多进程那真的太费时间了

推荐一个很好用的包 mlcrate

仔细查查相关知识就知道这个包在kaggle里面挺常用的，不过用于我们日常处理数据也是非常方便。我以前经常用的multiprocessing.poolranhou

from multiprocessing.pool import Pool
def add(a,b):
	return a+b
 
p = Pool(processes=2)
hh = p.map(add, [[1, 2], [3,4]])
p.close()
p.join()

1.mlc.SuperPool

其实我就想指定它使用多进程。其他的什么close，join我是不想写的，而且能看到处理进度当然最好了。下面这个函数就能很好的实现，我们只需要指定进程数，输入操作的函数还有输入进函数的参数即可。

代码如下（示例）：

import mlcrate as mlc
def get_cell_images(data):
	pass
	
for _, image_list in ss_df.iterrows():
    seg_list.append([_, image_list, suffix_name])
    
pool = mlc.SuperPool(8)
pool.map(get_cell_images, seg_list, description='get cell images')
print('\nsuccess!')

给个正在运行的截图，可以明显感觉快很多的。倍速级别加速处理。
在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

qq_42997572 CSDN认证博客专家 CSDN认证企业博客

码龄6年

5: 原创

107万+: 周排名

146万+: 总排名

1万+: 访问

: 等级

121: 积分

4: 粉丝

6: 获赞

15: 评论

45: 收藏

私信

关注

热门文章

分类专栏

python 应用 1篇
特征选择 1篇

最新评论

matconvnet +Matlab2019+vs2017+cudav10.0+cudnnv7.6.1
PjOnE7: 您好，我在执行vl_compilenn后出现了 c1xx: fatal error C1356: 无法找到 mspdbcore.dll 的问题，请问您有遇见过吗？
matconvnet +Matlab2019+vs2017+cudav10.0+cudnnv7.6.1
mengmengfine 回复落花雨12138: 我是用这个博主的办法只进行了cpu编译，先能用就行https://blog.csdn.net/qq_33590958/article/details/103563451
matconvnet +Matlab2019+vs2017+cudav10.0+cudnnv7.6.1
落花雨12138 回复 mengmengfine: 我也是呀，不知道怎么解决
matconvnet +Matlab2019+vs2017+cudav10.0+cudnnv7.6.1
zongcm 回复奶茶王子: 请问您解决了吗
matconvnet +Matlab2019+vs2017+cudav10.0+cudnnv7.6.1
奶茶王子: 我用vs2015的，对应了c++编译文件的位置是没错的，cpu也能正常编译，但是gpu还是出现类似第一个错误 [code=plain] 错误使用 vl_compilenn>nvcc_compile (line 616) Command "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v8.0\bin\nvcc" -c -o "E:\Matlab_projects\matconvnet-1.0-beta25\matlab\mex\.build\bits\datamex.obj" "E:\Matlab_projects\matconvnet-1.0-beta25\matlab\src\bits\datamex.cu" -DENABLE_GPU -DENABLE_DOUBLE -O -DNDEBUG -D_FORCE_INLINES --std=c++11 -I"D:\Polyspace\R2019b\extern\include" -I"D:\Polyspace\R2019b\toolbox\distcomp\gpu\extern\include" -gencode=arch=compute_30,code=\"sm_30,compute_30\" --compiler-options=/MD --compiler-bindir="E:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\bin" failed. 出错 vl_compilenn (line 488) nvcc_compile(opts, srcs{i}, objfile, flags) ; [/code]

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。