APU异构计算论文总结

leukocyten

已于 2022-07-15 17:08:41 修改

阅读量863

点赞数

分类专栏：异构计算文章标签：硬件架构

于 2022-07-10 20:33:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43707223/article/details/125709830

版权

异构计算专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

Accelerated Processing Unit(APU) Potential N-body simulation case study

链接：Accelerated Processing Unit(APU) Potential N-body simulation case study论文总结

Accelerated Processing Unit(APU) Potential N-body simulation case study

摘要

研究加速处理单元（APU）加速不规则/规则算法的效果
具体的方向是研究APU对于具有不规则的数据结构（如树）的应用程序的潜力，同时获取到APU与CPU共享功率和带宽资源
确定了APU可以被视为比GPU更便宜的解决方案的情况
使用两种不同实现的宇宙学N体模拟作为规则和不规则算法的案例研究
结论是在所有进行的测试中，GPU比APU更强大

引言

并行应用程序分为并行部分和串行部分
GPU执行并行部分，CPU执行串行部分和内存传输
GPU安装在（外围组件互连快速）PCIe总线上时，程序的性能会受到CPU和GPU之间数据传输的限制
因此引入将CPU和GPU融合在同一芯片上的APU，降低数据传输成本
但是当CPU处理计算密集型任务时，APU与CPU会共享一些资源，比如内存带宽和功耗，可能导致性能变差
离散GPU需要单独的内存空间以及CPU和GPU之间移动数据开销，显著增加功率消耗，但APU不会有这个问题
GPU对于控制规则、数据密集的算法效果很好，但是现实问题会涉及稀疏数据和基于指针的复杂数据结构，这也是本文的研究方向

主体

因为个人主要关注论文中关于APU的部分，所以略过宇宙学模拟的算法

递归方法不适用于GPU，因为指针访问内存操作会通过执行大量非协调内存访问（即内存访问序列化）而降低性能
GPU使用迭代树结构，APU使用SPC树结构（这里的树结构就是不规则数据结构）
先在CPU（Intel Core i7-4790）上测试BH算法，然后分别在GPU和APU（Intel HD 5500）上测试BH算法
再用常规（暴力）算法测试，没有CPU串行实现。GPU和APU（Intel HD 4600）的测试与BH算法类似，但这一次CPU（APU里面的）被密集的算术工作负载占用，以测试CPU繁忙时对APU性能的影响

结论

GPU在所有情况下都优于集成APU
APU显示出一些较小数据集的潜力
APU就较低的消耗而言，它的性能对于其他一些应用程序来说是可以接受的
降低运算强度，以及使用本地内存和设备的最大WG大小，使APU的性能比原始实现提高了94.6%

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。