并行编程模型opencl、mpi、cuda等的区别-CSDN博客

（1）CUDA与opencl:

虽然两者抱着相同的目标：通用并行计算。但是CUDA仅仅能够在NVIDIA的GPU硬件上运行，而OpenCL的目标是面向任何一种Massively Parallel Processor，期望能够对不同种类的硬件给出一个相同的编程模型。由于这一根本区别，二者在很多方面都存在不同。跨平台性和通用性，这一点上OpenCL占有很大优势（这也是很多National Laboratory使用OpenCL进行科学计算的最主要原因）。OpenCL支持包括ATI,NVIDIA,Intel,ARM在内的多类处理器，并能支持运行在CPU的并行代码，同时还独有Task-Parallel Execution Mode，能够更好的支持异构计算（Heterogeneous Computing）。这一点是仅仅支持数据级并行并仅能在NVIDIA众核处理器上运行的CUDA无法做到的。

opencl优点：OpenCL为异构平台提供了一个编写程序，尤其是并行程序的开放的框架标准。 OpenCL所支持的异构平台（单一pc机或者手机）可由多核CPU、GPU、FPGA、DSP或其他类型的处理器组成。用OpenCL编写的应用具有很好的移植性，能在不同的设备上运行.

（2）OpenCL is designed for multi-cores system,所以不能用于multi-computers(每个computer是一个multi-cores system)编程;

（3）MPI(Message Passing Interface )：提供了多台计算机构成的集群的并行编程框架；

（4）openMP(Open Multi-Processing):

用于共享内存并行系统(单机)的多处理器程序,OpenMp的缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上，MPI使用较多

（5）MPI和hadoop：

它们都是运行在计算机集群上的框架，但两者有不同，一般来说，hadoop是MPI的改进版。MPI是计算与存储分离，Hadoop是计算向存储迁移。在MPI中数据存储的节点和数据处理的节点往往是不同的，一般在每次计算开始时MPI需要从数据存储节点读取需要处理的数据分配给各个计算节点，然后进行数据处理，即MPI的数据存储和数据处理是分离的。但对于处理TB级数据的数据密集型应用，大量的数据在节点间进行交换，网络通信时间将成为影响系统性能的重要因素，性能会大大降低。在Hadoop中有HDFS文件系统的支持，数据是分布式存储在各个节点的，计算时各节点读取存储在自己节点的数据进行处理，从而避免了大量数据在网络上的传输，实现“计算向存储的迁移”。

（6）deep learning 的并行化训练：

deep learning 的并行化包括“data parallel”和“model parallel”两种思想，前者跟普通的单cpu/gpu训练过程相同，只不过把每个Minibatch切分成S份（S指GPU的个数），
对第i份数据进行单独训练(误差最小化)得到其对应梯度gradient(i)(gradient(i)=d[loss(i)]/d(params)|params=params_old)，然后使S个GPU进行通信，得到其更新后的梯度params_new = params_old+sum{i}{gradient(i)}。为了充分利用单个GPU的并行运算能力，需要的最小块大小变成了原来的S倍，故对可用的训练数据量要求严格(如imagenet数据集)，此外，基于“data parallel”的模型需要GPU之间的大量通信( each GPU must communicate both gradients and parameter values on every update step)。在速度提升方面“ In our implementation, we find a speed-up of 1.5 times moving from 1 to 2 GPUs in the data parallel framework (when using 2 GPUs, each gets assigned a minibatch of size 128)”。“model parallel”:splitting an individual network’s computation across multiple GPUs，缺点是相对于数据并行思想，较难实现。

（8）机器学习算法的训练的分布式实现：

分布式的框架(多GPU的cuda、多节点的hadoop,spark等)的使用容易，但如何对一个普通的机器学习算法进行改造，使其适合分布式处理的思想，才是最核心要考虑的事情，比如分布式SVM的设计。一般的想法是把超大矩阵的乘法分配到多GPU上并行，如lstm网络的训练，但这是针对于特殊的算法的，不具有一般性。对于Google等大公司训练imagenet等超大规模的网络，采用的是分布式集群(多节点,每个节点多个cpu)，未使用GPU集群的原因是考虑到，节点间的GPU相互传输数据时，需要先经过cpu,即gpu1->cpu1->cpu2->gpu2(cpu1,gpu1和cpu2,gpu2分属于不同的节点计算机)，耗时，且是通过对训练数据集进行拆分(data parallel)，达到加快模型训练速度的目的。但对于训练数据不是很大的机器学习算法(如高光谱图像的分割)而言，也并不适合采用分布式框架训练模型！