CDA
数据分析师
(CDA.cn)
——真本事,心舒适
加快
Python
算法的四个方法(三)数据并行化
相信大家在做一些算法经常会被庞大的数据量所造成的超多计算量需要的时间而折磨的痛苦不
已,接下来我们围绕四个方法来帮助大家加快一下
Python
的计算时间,减少大家在算法上的
等待时间。以下给大家讲解关于数据并行化这方面的内容。
1.
介绍
随着时间和处理器计算能力的增长,数据呈指数级增长,我们需要找到有效地处理数据的方法。
那我们应该怎么办呢?
GPU
是一种非常有效的解决方案。但是,
GPU
并不是为了机器学习而设计的,它是专门为复
杂的图像处理和游戏而设计的。我们使算法能够在现有
GPU
上运行,并且确实取得了成果。
现在,谷歌推出了一种名为
TPU
(张量处理单元)的新设备,该设备专门针对
TensorFlow
上
的机器学习工作而量身定做的,其结果确实令人激动。同时英伟达在这方面也并没有退缩。
但是我们将来会在某个时候达到顶峰。即使我们我们现在拥有大量可用的数据集,但是单台机
器或计算单元也不足以处理这样的负载。我们将不得不使用多台机器来完成我们的任务。我们
将不得不
并行化
完成我们的任务。
接下来,我们将研究大多数情况下你将在
Python
中使用的一些方法。然后再介绍一下
Dask
和
torch.multiprocessing
。