Heterogeneous Parallel Programming（异构并行编程）学习笔记（五）

最新推荐文章于 2024-09-12 19:02:20 发布

苏幕洲

最新推荐文章于 2024-09-12 19:02:20 发布

阅读量2.7k

点赞数

文章标签： cuda parallel 算法编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huhumama0/article/details/8483936

版权

本文介绍了两种并行计算模式：前缀求和（Prefix Sum）和卷积（Convolution）。通过并行计算解决前缀求和中的效率问题，提出两种不同的并行算法，分别需要O(logN)步和2 * O(logN)步。此外，还探讨了卷积的计算方法和并行计算策略，通过分块算法减少内存读取次数，提高性能。

摘要由CSDN通过智能技术生成

这里主要讲述两种并行计算模式，前缀求和（Prefix Sum）以及卷积（Convolution）。

1. Prefix Sum

前缀求和由一个二元操作符和一个输入向量组成，虽然名字叫求和，但操作符不一定是加法。先解释一下，以加法为例：

第一行是输入，第二行是对应的输出。可以看到，Output[1] = Input[0] + Input[1]，而Output[length - 1]就是整个输入向量元素之和。

为什么要使用并行计算？假如用串行计算来计算输出向量，那么向量中越靠后的元素需要等待的时间越长。最后一个元素需要等待0 + 1 + 2 + ... + (n - 2) = (n - 1)(n - 2) / 2次加法计算后，才开始计算该元素。在很多情况下是不容许等待这么长时间的。因此需要并行计算。

一个很简单的想法是为输出向量每一个元素分配一个线程，该线程计算对应元素的值。这个方法有两个明显的问题。首先，这样产生的线程的计算负载非常不均衡，T1只运行一次加法，而T[length - 1]需要运行n - 1次加法。整个并行算法的时间由负载最高的线程决定，也就是O(N)。其次，输入向量中，第一个元素会被所有线程读取，第二个被n - 1个线程读取，总共下来，会有O(N * N)次读取。前面也提到过，内存读取是一种比较慢的操作，过多的内存读取会影响算法的性能。

上面的想法也说明一个现象：并行计算非常的简单，只要不考虑计算的性能。

2. Prefix Sum并行算法一

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。