cuda显存访问耗时

用户名溢出

已于 2023-09-07 21:01:33 修改

阅读量270

点赞数

分类专栏： Cuda 文章标签：学习

于 2023-09-07 19:47:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bocai1215/article/details/132744665

版权

Cuda 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

文章探讨了一个CUDA程序中因处理大量显存数据导致的性能瓶颈。通过改变数据类型（如从float到int16_t和int8_t）和优化访问方式，发现降低数据类型可以显著减少显存使用和耗时。这揭示了CUDA内存层次结构在处理大内存问题中的重要性。

摘要由CSDN通过智能技术生成

背景：

项目中有个数据量大小为5195 * 512 * 128float = 1.268G的显存，发现有个函数调用很耗时，函数里面就是对这个显存进行128个元素求和，得到一个5195 * 512的图像

分析

1. 为什么耗时

直观上感觉这个流程应该不怎么耗时才对，但是写了个demo测试发现

上面代码，统计耗时

需要消耗掉50ms左右（显卡是Quadro P2200）

太恐怖了

2.修改数据类型为int16_t

将数据类型修改为int16_t访问的显存大小降为0.6G左右

降低为上面结果

3.修改数据类型为int8_t

将数据类型修改为int8_t访问的显存大小降为0.3G左右

降低不再明显

3. 修改访问方式

由于显存是按照内存事务一次性加载的，如果按照上面代码进行访问，按照个人理解，32个线程一次加载的内存是不够用的，需要至少32次内存事务才能完成处理，尝试修改代码：

同样是int类型，耗时如下：

结论：

当cuda程序需要访问的显存过大时，将会出现耗时非常严重的问题

参考链接：

cuda 学习之内存层次结构_请说明 register,shared,global 以及 constant 四类 cuda 内存_xukang95的博客-CSDN博客

用户名溢出

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cuda显存访问耗时

项目中有个数据量大小为5195 * 512 * 128float = 1.268G的显存，发现有个函数调用很耗时，函数里面就是对这个显存进行128个元素求和，得到一个5195 * 512的图像。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。