并行计算概述 (Introduction to Parallel Computing)


http://hc.csdn.net/resources/resource_detail?id=67
摘要:在计算机术语中,并行性是指:把一个复杂问题,分解成多个能同时处理的子问题的能力。要实现并行计算,首先我们要有物理上能够实现并行计算的硬件设备,比如多核CPU,每个核能同时实现算术或逻辑运算。

一、并行计算概述(Introduction to Parallel Computing)

在计算机术语中,并行性是指:把一个复杂问题,分解成多个能同时处理的子问题的能力。要实现并行计算,首先我们要有物理上能够实现并行计算的硬件设备,比如多核CPU,每个核能同时实现算术或逻辑运算。

通常,我们通过GPU实现两类并行计算:

任务并行:把一个问题分解为能够同时执行的多个任务。     

数据并行:同一个任务内,它的各个部分同时执行。

下面我们通过一个农场主雇佣工人摘苹果的例子来描述不同种类的并行计算。 

image

•摘苹果的工人就是硬件上的并行处理单元(process elements)。

•树就是要执行的任务。

•苹果就是要处理的数据。

串行的任务处理就如下图所示,一个工人背着梯子摘完所有树上的苹果(一个处理单元处理完所有任务的数据)。

image

数据并行就好比农场主雇佣了好多工人来摘完一个树上的苹果(多个处理单元并行完成一个任务中的数据),这样就能很快摘完一颗树上的苹果。

image

农场主也可以为每棵树安排一个工人,这就好比任务并行。在每个任务内,由于只有一个工人,所以是串行执行的,但任务之间是并行的。

image

对一个复杂问题,影响并行计算的因素很多。通常,我们都是通过分解问题的方式来实施并算法行。

这又包括两方面内容:

•任务分解:把算法分解成很多的小任务,就像前面的例子中,把果园按苹果树进行划分,这时我们并不关注数据,也就是说不关注每个树上到底有多少个苹果。

•数据分解:就是把很多数据,分成不同的、离散的小块,这些数据块能够被并行执行,就好比前面例子中的苹果。

通常我们按照算法之间的依赖关系来分解任务,这样就形成了一个任务关系图。一个任务只有没有依赖任务的时候,才能够被执行。

image

这有点类似于数据结构中的有向无环图,两个没有连通路径的任务之间可以并行执行。下面再给一个烤面包的例子,如果所示,预热烤箱和购买面粉糖两个任务之间可以并行执行。

image

对大多数科学计算和工程应用来说,数据分解一般都是基于输出数据,例如:

•在一副图像中,对一个滑动窗口(例如:3*3像素)内的像素实施滤波操作,可以得到一个输出像素的卷积。

•第一个输入矩阵的第i行乘以第二个输入矩阵的第j列,得到的向量和即为输出矩阵第i行,第j列的元素。

这种方法对于输入和输出数据是一对一,或者多对一的对应关系比较有效。

也有的数据分解算法是基于输入数据的,这时,输入数据和输出数据一般是一对多的关系,比如求图像的直方图,我们要把每个像素放到对应的槽中(bins,对于灰度图,bin数量通常是256)。一个搜索函数,输入可能是多个数据,输出却只有一个值。对于这类应用,我们一般用每个线程计算输出的一部分,然后通过同步以及原子操作得到最终的值,OpenCL中求最小值的kernel函数就是典型代表[可以看下ATI Stream Computing OpenCL programming guide第二章中求最小值的kernel例子]。

通常来说,怎样分解问题和具体算法有关,而且还要考虑自己使用的硬件和软件,比如AMD GPU平台和Nvdia GPU平台的优化就有很多不同。

二、常用基于硬件和软件的并行

在上个实际90年代,并行计算主要研究如何在cpu上实施指自动的指令级并行。

•同时发射多条指令(之间没有依赖关系),并行执行这些指令。

•在本教程中,我么不讲述自动的硬件级并行,感兴趣的话,可以看看计算机体系结构的教程。

高层的并行,比如线程级别的并行,一般很难自动化,需要程序员告诉计算机,该做什么,不该做什么。这时,程序员还要考虑硬件的具体指标,通常特定硬件都是适应于某一类并行编程,比如多核cpu就适合基于任务的并行编程,而GPU更适应于数据并行编程。

Hardware type

Examples

Parallelism

Multi-core superscalar processors

Phenom II CPU

Task

Vector or SIMD processors

SSE units (x86 CPUs)

Data

Multi-core SIMD processors

Radeon 5870 GPU

Data

现代的GPU有很多独立的运算核(processor)组成,在AMD GPU上就是stream core,这些core能够执行SIMD操作(单指令,多数据),所以特别适合数据并行操作。通常GPU上执行一个任务,都是把任务中的数据分配到各个独立的core中执行。

在GPU上,我们一般通过循环展开,Loop strip mining 技术,来把串行代码改成并行执行的。比如在CPU上,如果我们实现一个向量加法,代码通常如下:

 1: for(i = 0; i < n; i++)
 2: {
 3: C[i] = A[i] + B[i];
 4: }

在GPU上,我们可以设置n个线程,每个线程执行一个加法,这样大大提高了向量加法的并行性。

 1: __kernel void VectorAdd(__global const float* a, __global const float* b, __global float* c, int n)
 2: {
 3: int i = get_global_id(0);
 4: c[i] = a[i] + b[i];
 5: }

imageimage

上面这个图展示了向量加法的SPMD(单指令多线程)实现,从图中可以看出如何实施Loop strip mining 操作的。

GPU的程序一般称作Kernel程序,它是一种SPMD的编程模型(the Single Program Multiple Data )。SPMD执行同一段代码的多个实例,每个实例对数据的不同部分进行操作。

在数据并行应用中,用loop strip mining来实现SPMD是最常用的方法:

•在分布式系统中,我们用Message Passing Interface (MPI)来实现SPMD。

•在共享内存并行系统中,我们用POSIX线程来实现SPMD。

•在GPU中,我们就是用Kernel来显现SPMD。

   

在现代的CPU上,创建一个线程的开销还是很大的,如果要在CPU上实现SPMD,每个线程处理的数据块就要尽量大点,做更多的事情,以便减少平均线程开销。但在GPU上,都是轻量级的线程,创建、调度线程的开销比较小,所以我们可以做到把循环完全展开,一个线程处理一个数据。

image

GPU上并行编程的硬件一般称作SIMD。通常,发射一条指令后,它要在多个ALU单元中执行(ALU的数量即使simd的宽度),这种设计减少了控制流单元以级ALU相关的其他硬件数量。

SIMD的硬件如下图所示:

image

在向量加法中,宽度为4的SIMD单元,可以把整个循环分为四个部分同时执行。在工人摘苹果的例子中,工人的双手类似于SIMD的宽度为2。另外,我们要知道,现在的GPU硬件上都是基于SIMD设计,GPU硬件隐式的把SPMD线程映射到SIMD core上。对开发有人员来说,我们并不需要关注硬件执行结果是否正确,我们只需要关注它的性能就OK了。

CPU一般都支持并行级的原子操作,这些操作保证不同的线程读写数据,相互之间不会干扰。有些GPU支持系统范围的并行操作,但会有很大开销,比如Global memory的同步。

### 回答1: 并行计算是一种在多处理器系统上实现高性能计算和各种前沿科学应用的方法。并行计算是将一个复杂的问题分解成多个子问题,然后在多个处理器上同时进行计算。并行计算是通过独立运行的进程和线程进行的,并且可以分为共享内存并行处理和分布式内存并行处理。 在并行计算中,程序被划分为多个较小的任务,然后同时在多个处理器上运行。这样可以显著提高计算速度和处理能力。但并行计算也存在一些问题,例如负载平衡、数据通信、同步和并发控制等。 并行计算的实现需要考虑硬件和软件的因素。硬件方面需要考虑高速缓存、内存带宽、总线宽度等。而软件方面需要考虑程序的分解和调度、通信和同步、数据分配和访问等。 对于并行计算的程序设计,需要采用一些并行算法和并行数据结构来实现。同时,编程语言和API也有不同的支持并行计算的方式。例如,OpenMP和MPI是常用的并行编程API。 总之,对于大规模高性能计算和科学应用而言,采用并行计算是实现高效和精确计算的重要方法。并行计算需要考虑多个硬件和软件因素,采用适当的并行设计和算法来实现。 ### 回答2: 并行计算是一种计算模型,与串行计算模型不同,在并行计算模型中,多个计算机处理器同时执行任务。这种计算模型因其运算速度快、解决更大问题和多任务处理能力强等优点而广泛应用。并行计算的主要目的是提高计算效率,并使计算机的性能更强大。并行计算通常分为共享内存和分布式内存两种方式。 共享内存并行计算是指所有处理器共享计算机内存,以便它们可以更容易地共享信息。分布式内存并行计算则是指处理器之间使用网络进行通信和信息共享。并行计算可以通过多个算法实现,如排序、矩阵乘法、图像处理和人工智能等。 在并行计算中,需要考虑以下因素:计算任务的划分、通信和同步、负载平衡以及性能和可扩展性。为了使并行计算更加高效和可靠,需要使用一些并行计算技术和算法,如分治法、管道、蒙特卡罗方法、并行搜索和并行排序等。 总之,并行计算是当今计算机领域中的热门话题,该领域仍在不断发展和创新。随着处理器和计算机技术的不断改进,我们可以期待并行计算在未来的应用领域中扮演更重要的角色。 ### 回答3: 并行计算是指处理任务时将一个任务分成多个部分,并在多个CPU或计算机上同时执行每个部分的过程。并行计算可以大大加速计算速度,提高系统性能。《并行程序设计导论》英文版是一本介绍并行计算的基本原理和技术的入门教材。 该书从并行计算的概念开始介绍了并行计算的基础知识,如并行架构、并行算法和并行编程模型等。它还深入研究了如何利用并行计算来优化常见的计算任务,如排序、矩阵乘法和图像处理。 此外,该书还介绍了当前在并行计算领域的前沿技术,如GPU并行计算和分布式计算,并提供了有用的资源和工具,如MPI和OpenMP。这些内容可以帮助读者了解并行计算领域的最新趋势和技术,以便更好地处理复杂的任务和问题。 总的来说,《并行程序设计导论》英文版是一本非常有用的教材,它提供了丰富的知识和技能来处理并行计算问题。无论你是初学者还是经验丰富的并行计算专家,这本书都可以帮助你更好地理解并行计算的基础知识和最新技术,以便优化你的计算任务和系统性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值