GPU基本常识四

最新推荐文章于 2023-10-06 13:48:28 发布

王贞

最新推荐文章于 2023-10-06 13:48:28 发布

阅读量385

点赞数 1

分类专栏： Arm/Ubuntu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abedg126/article/details/79697071

版权

Arm/Ubuntu 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

算法，数据位宽和每个元素的位宽有很大的关系. 如果数据能够用更小的数据类型来表示，就用更小的数据类型.

eg: 以点积为例，int占4个字节, GPU一次最多只能load 128bit数据，所以一次只能处理4个. short占2个字节, GPU一次最多只能load 128bit数据. 所以一次只能处理8个数，计算量是之前的2倍. 带宽就可以节省一半. 可以理解为：计算量降为原来的1/2，带宽也是原来的一半.

cache效率：

从DDR取cacheline到cache里, cacheline数据连续的. 所以如果数据不连续，cache浪费.

最好不要用if else写openvx,

group条件分支：假设一个group里有4个线程，从微观方面这4个线程是并发的概念，但是在宏观方面可以说是这4个线程是并行的. 假设4个线程A,B,C,D, 一个kernel执行一个线程，在kernel(x==0 fun0, x==1 fun1, x==2 fun2, x==3 fun3). 如果线程A满足(x==0 fun0)条件，则线程B,C,D会空跑. 等到线程B满足(x==1 fun1)条件, 线程A,C,D也会空跑, 浪费资源.

故涉及到if else, 写两条语句. 用2个kernel来写代码，所有的kernel串联执行.

openvx可自动处理边界.

假设高3宽4的图像，1个线程处理1*1像素点，x方向2个线程，y方向1个线程为一个group. group之间的切换表示gpu寄存器从cache里无法获取数据. 类似于多线程的概念. id表示线程的哪一块.

1个kernel----1个线程

1个group，一定是利用完4个寄存器文件.

1个kernel, 一定是只使用一个寄存器文件，故kernel最多只允许拥有128个寄存器. 最好控制在10-15个寄存器，因为1个寄存器文件有128个寄存器，1个kernel里的寄存器太多，group之间无法很好的切换，只能干等在那里.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GPU基本常识四

算法，数据位宽和每个元素的位宽有很大的关系. 如果数据能够用更小的数据类型来表示，就用更小的数据类型. eg: 以点积为例，int占4个字节, GPU一次最多只能load 128bit数据，所以一次只能处理4个. short占2个字节, GPU一次最多只能load 128bit数据. 所以一次只能处理8个数，计算量是之前的2倍. 带宽就可以节省一半. 可以理解为：计算量降为原来的1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。