Better Performance at Lower Occupancy(三)使用更少线程运行更快

最新推荐文章于 2021-05-06 10:54:44 发布

Bruce_0712

最新推荐文章于 2021-05-06 10:54:44 发布

阅读量518

点赞数

分类专栏： CUDA

CUDA 专栏收录该内容

36 篇文章 26 订阅

订阅专栏

使用更少线程意味着每个线程拥有更多的寄存器。

　　

　　每个线程的寄存器数：

　　GF100：在100%占用率时有20个，在33%占用率时63个，为3倍。

　　GT200：在100%占用率时有16个，在12.5%占用率时约有128个，为8倍

　　那么每个线程有更多的寄存器是不是更好呢?

　　只有寄存器的速度才能足够达到峰值。考虑这样一个计算: a*b+c：2个flops，12B输入，4B输出，则对于1.3Tflop/s的计算峰值，需要8.1TB/s的带宽，寄存器可以满足这样的要求，我们来看看共享内存(shared memory)能不能达到?

　　只有 4B*32banks*15SMs*half 1.4GHz = 1.3TB/s

　　需要的带宽和可以达到的带宽比较：

　　

　　lz：可以看出共享内存的带宽是全局内存(显存)的7.6倍，而寄存器是共享内存的6倍，至少需要8TB/s的带宽才能让GPU的计算达到峰值，寄存器可以做到(废话，做不到这个计算峰值就根本不存在了)。

　　谬误：“事实上，对一个warp中的所有线程来说，如果线程间没有bank conflicts，访问共享内存和访问寄存器一样快。”(CUDA Programming Guide)

　　不，在Fermi架构中，共享内存的带宽比寄存器慢6倍以上。(非Fermi为3倍)

　　运行更快可能需要更低的占用率：

　　1. 必须使用寄存器才能接近峰值。

　　2. 不同存储的带宽差距越大，越多的数据就必须从寄存器中读取。

　　3. 而使用越多的寄存器意味着越低的占用率。

　　这常常可以通过每个线程计算更多的输出来完成。

　　

　　对线程来说，越多的数据存放于寄存器意味着越少次数的共享内存访问。越少的线程，但每个线程做越多的工作，使得低占用率不成问题。

　　从Tesla到Fermi是一种倒退吗?

　　共享内存带宽和计算带宽的差距增加了：

　　

　　使用快速的寄存器会有帮助，但寄存器的数目被严格限制：

　　G80-GT200: 每个线程最多128个寄存器。

　　Fermi：每个线程最多64个寄存器。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Better Performance at Lower Occupancy(三)使用更少线程运行更快

使用更少线程意味着每个线程拥有更多的寄存器。　　　　每个线程的寄存器数：　　GF100：在100%占用率时有20个，在33%占用率时63个，为3倍。　　GT200：在100%占用率时有16个，在12.5%占用率时约有128个，为8倍　　那么每个线程有更多的寄存器是不是更好呢?　　只有寄存器的速度才能足够达到峰值。考虑这样一个计算: a*b+c：2个f
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。