APU异构计算论文总结


链接:Accelerated Processing Unit(APU) Potential N-body simulation case study论文总结

Accelerated Processing Unit(APU) Potential N-body simulation case study

摘要

  • 研究加速处理单元(APU)加速不规则/规则算法的效果
  • 具体的方向是研究APU对于具有不规则的数据结构(如树)的应用程序的潜力,同时获取到APU与CPU共享功率带宽资源
  • 确定了APU可以被视为比GPU更便宜的解决方案的情况
  • 使用两种不同实现的宇宙学N体模拟作为规则和不规则算法的案例研究
  • 结论是在所有进行的测试中,GPU比APU更强大

引言

  • 并行应用程序分为并行部分串行部分
  • GPU执行并行部分,CPU执行串行部分和内存传输
  • GPU安装在(外围组件互连快速)PCIe总线上时,程序的性能会受到CPU和GPU之间数据传输的限制
  • 因此引入将CPU和GPU融合在同一芯片上的APU,降低数据传输成本
  • 但是当CPU处理计算密集型任务时,APU与CPU会共享一些资源,比如内存带宽和功耗,可能导致性能变差
  • 离散GPU需要单独的内存空间以及CPU和GPU之间移动数据开销,显著增加功率消耗,但APU不会有这个问题
  • GPU对于控制规则数据密集的算法效果很好,但是现实问题会涉及稀疏数据和基于指针的复杂数据结构,这也是本文的研究方向

主体

因为个人主要关注论文中关于APU的部分,所以略过宇宙学模拟的算法

  • 递归方法不适用于GPU,因为指针访问内存操作会通过执行大量非协调内存访问(即内存访问序列化)而降低性能
  • GPU使用迭代树结构,APU使用SPC树结构(这里的树结构就是不规则数据结构)
  • 先在CPU(Intel Core i7-4790)上测试BH算法,然后分别在GPU和APU(Intel HD 5500)上测试BH算法
  • 再用常规(暴力)算法测试,没有CPU串行实现。GPU和APU(Intel HD 4600)的测试与BH算法类似,但这一次CPU(APU里面的)被密集的算术工作负载占用,以测试CPU繁忙时对APU性能的影响
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

结论

  • GPU在所有情况下都优于集成APU
  • APU显示出一些较小数据集的潜力
  • APU就较低的消耗而言,它的性能对于其他一些应用程序来说是可以接受的
  • 降低运算强度,以及使用本地内存和设备的最大WG大小,使APU的性能比原始实现提高了94.6%
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值