Ubuntu下的CUDA编程（四）

最新推荐文章于 2023-07-06 18:04:25 发布

linyingzhan

最新推荐文章于 2023-07-06 18:04:25 发布

阅读量513

点赞数

分类专栏： CUDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linyingzhan/article/details/8265046

版权

CUDA 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

近来测试了矩阵（规模为2048*2048）乘法在不同参数下两个算法分别使用的时间：第一个算法为没有使用shared memory的直接相乘，每个thread负责矩阵C的一个元素的计算；第二个算法为使用了shared memory的分块算法，每个block就是一个小的矩阵分块，而测试所得数据如下图所示：

Ubuntu下的CUDA编程（四）

说明：水平方向的参数是BLOCK_SIZE（4/8/16/32），垂直方向的参数是调用矩阵乘法核函数的次数（10/100），表格中数据单位为秒。

由此图可以看到，在BLOCK_SIZE为4时，未分块的矩阵乘法核函数运行出错（原因未明，可能和warp执行束的特点相关），而当BLOCK_SIZE为8/16/32时，分块矩阵乘法将体现出3-4倍的加速，由此也可以看出使用shared memory的必要之处，特别地，我们看BLOCK_SIZE等于16时的更多比较：

Ubuntu下的CUDA编程（四）

说明：BLOCK_SIZE大小为16，表中数据单位为秒。

基本上分块算法（参见NVIDIA CUDA Programing Guide）都能够保持将近3倍的加速。

Ubuntu下的CUDA编程（四）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Ubuntu下的CUDA编程（四）

近来测试了矩阵（规模为2048*2048）乘法在不同参数下两个算法分别使用的时间：第一个算法为没有使用sharedmemory的直接相乘，每个thread负责矩阵C的一个元素的计算；第二个算法为使用了sharedmemory的分块算法，每个block就是一个小的矩阵分块，而测试所得数据如下图所示：说明：水平方向的参数是BLOCK_SIZE（4/8/16/32），垂直方向的参数是调用矩阵乘
复制链接

扫一扫

专栏目录

linyingzhan CSDN认证博客专家 CSDN认证企业博客

码龄15年

86: 原创

110万+: 周排名

186万+: 总排名

5万+: 访问

: 等级

1457: 积分

13: 粉丝

5: 获赞

8: 评论

36: 收藏

私信

关注

热门文章

分类专栏

MPI 2篇
CUDA 16篇
web 1篇
云计算 1篇
小程序杂谈 22篇
java 3篇
操作系统 7篇
编译器 2篇
文章收录 4篇
浏览器 1篇
大排档 6篇
硬件优化 6篇

最新评论

基于CUDA的GPU优化建议
不归牛顿管的熊猫: 写的挺好，就是这排版看着难受
基于CUDA的GPU优化建议
不归牛顿管的熊猫: 写的挺好，就是这排版看着难受
Ubuntu下的CUDA编程（一）
cuda-hjs: 你自己看下你写这个，还以为找到好东西了
x86指令集的一点总结介绍（未完待…
zqs1232014: https://jocent.me/2017/05/26/x86_instruction_set.html 互为补充
基于CUDA的GPU优化建议
linyingzhan 回复 vhust: 实在是不好意思，许久没有上来，也没有跟进这个方面的东西，论文大致是这些，当初看过的挺多，有点忘了是哪些，这儿几篇应该是，可以看看：《An analytical model for a GPU architecture with memory-level and thread-level parallelism awareness》《An Accurate GPU Performance Model for Effective control flow divergence optimization》《Fast Implementation of DGEMM on Fermi GPU》《Demystifying GPU Microarchitecture through Microbenchmarking》

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。