并行编程模型opencl、mpi、cuda等的区别

(1)CUDA与opencl:

虽然两者抱着相同的目标:通用并行计算。但是CUDA仅仅能够在NVIDIA的GPU硬件上运行,而OpenCL的目标是面向任何一种Massively Parallel Processor,期望能够对不同种类的硬件给出一个相同的编程模型。由于这一根本区别,二者在很多方面都存在不同。跨平台性和通用性,这一点上OpenCL占有很大优势(这也是很多National Laboratory使用OpenCL进行科学计算的最主要原因)。OpenCL支持包括ATI,NVIDIA,Intel,ARM在内的多类处理器,并能支持运行在CPU的并行代码,同时还独有Task-Parallel Execution Mode,能够更好的支持异构计算(Heterogeneous Computing)。这一点是仅仅支持数据级并行并仅能在NVIDIA众核处理器上运行的CUDA无法做到的。

opencl优点:OpenCL为异构平台提供了一个编写程序,尤其是并行程序的开放的框架标准。 OpenCL所支持的异构平台(单一pc机或者手机)可由多核CPU、GPU、FPGA、DSP或其他类型的处理器组成。用OpenCL编写的应用具有很好的移植性,能在不同的设备上运行.

(2)OpenCL is designed for multi-cores system,所以不能用于multi-computers(每个computer是一个multi-cores system)编程;

(3)MPI(Message Passing Interface ):提供了多台计算机构成的集群的并行编程框架;

(4)openMP(Open Multi-Processing):

用于共享内存并行系统(单机)的多处理器程序,OpenMp的缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上,MPI使用较多

(5)MPI和hadoop:

它们都是运行在计算机集群上的框架,但两者有不同,一般来说,hadoop是MPI的改进版。MPI是计算与存储分离,Hadoop是计算向存储迁移。在MPI中数据存储的节点和数据处理的节点往往是不同的,一般在每次计算开始时MPI需要从数据存储节点读取需要处理的数据分配给各个计算节点,然后进行数据处理,即MPI的数据存储和数据处理是分离的。但对于处理TB级数据的数据密集型应用,大量的数据在节点间进行交换,网络通信时间将成为影响系统性能的重要因素,性能会大大降低。在Hadoop中有HDFS文件系统的支持,数据是分布式存储在各个节点的,计算时各节点读取存储在自己节点的数据进行处理,从而避免了大量数据在网络上的传输,实现“计算向存储的迁移”。

(6)deep learning 的并行化训练:

deep learning 的并行化包括“data parallel”和“model parallel”两种思想,前者跟普通的单cpu/gpu训练过程相同,只不过把每个Minibatch切分成S份(S指GPU的个数),

对第i份数据进行单独训练(误差最小化)得到其对应梯度gradient(i)(gradient(i)=d[loss(i)]/d(params)|params=params_old),然后使S个GPU进行通信,得到其更新后的梯度params_new = params_old+sum{i}{gradient(i)}。为了充分利用单个GPU的并行运算能力,需要的最小块大小变成了原来的S倍,故对可用的训练数据量要求严格(如imagenet数据集),此外,基于“data parallel”的模型需要GPU之间的大量通信( each GPU must communicate both gradients and parameter values on every update step)。在速度提升方面“ In our implementation, we find a speed-up of 1.5 times moving from 1 to 2 GPUs in the data parallel framework (when using 2 GPUs, each gets assigned a minibatch of size 128)”。“model parallel”:splitting an individual network’s computation across multiple GPUs,缺点是相对于数据并行思想,较难实现。

(8)机器学习算法的训练的分布式实现:

分布式的框架(多GPU的cuda、多节点的hadoop,spark等)的使用容易,但如何对一个普通的机器学习算法进行改造,使其适合分布式处理的思想,才是最核心要考虑的事情,比如分布式SVM的设计。一般的想法是把超大矩阵的乘法分配到多GPU上并行,如lstm网络的训练,但这是针对于特殊的算法的,不具有一般性。对于Google等大公司训练imagenet等超大规模的网络,采用的是分布式集群(多节点,每个节点多个cpu),未使用GPU集群的原因是考虑到,节点间的GPU相互传输数据时,需要先经过cpu,即gpu1->cpu1->cpu2->gpu2(cpu1,gpu1和cpu2,gpu2分属于不同的节点计算机),耗时,且是通过对训练数据集进行拆分(data parallel),达到加快模型训练速度的目的。但对于训练数据不是很大的机器学习算法(如高光谱图像的分割)而言,也并不适合采用分布式框架训练模型!

  • 4
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值