基于CUDA的GPU优化建议

最新推荐文章于 2024-03-28 22:50:36 发布

linyingzhan

最新推荐文章于 2024-03-28 22:50:36 发布

阅读量1.5k

点赞数

分类专栏： CUDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linyingzhan/article/details/8265136

版权

l GPU硬件特性

n 存储层次

u Global memory：

l 大小一般为几GB

l chip-off的DRAM介质存储器

l 访问速度慢（是shared memory的上百倍）

l 对于是否对齐和连续访问敏感（由DRAM的性质决定）

l 可以被所有的线程访问

u Shared memory：

l 每个SM中一般几十KB

l chip-on的SRAM介质存储器

l 访问速度快（与register相当）

l 对于是否对其和连续访问不敏感，但是对bank conflict敏感（由bank设计决定）

l 只对自身block中的线程可见

u Register

l 每个SM中一般为几千个（约30K）

l Chip-on的寄存器

l 访问速度最快

l 只对每个thread本身可见

u Other

l Local memory

n 每个线程有512KB（计算能力2.x），或者16KB（计算能力1.x）

n Chip-off的存储器，与global memory类似

n 访问速度慢（与global memory类似）

n 由编译器控制，存放寄存器溢出的自动变量

n 只对每个thread本身可见

l Texture memory

n 大小为6-8KB

l Constant memory

n 大小为64KB

n 执行层次

u 逻辑

l Grid：由block构成，维数及维度可以设置，所有的block在Grid中并行执行

l Block：由thread够层，维数及维度可以设置，同一个block中的thread并行执行

l Thread：由threadId识别，每个thread有自己的寄存器，私有变量，共享同一个block中的shared memory

u 物理

l SM：由多个流处理器组成，每个SM有独立的资源，包括：block槽，warp槽，thread槽，shared memory，register

l Warp：由32个thread组成，每次执行的时候，32个thread动作一致，如果有分支，则串行执行

l Thread：物理上属于warp，与其他thread一同，组成最小的执行单元warp，拥有自己的寄存器

l GPU优化原则

n 访存方式

u Global memory：尽量让一个warp中的线程访问连续的一个内存块，实现级联访问（合并访问）

u Shared memory：尽量减少bank conflict，让同一个warp中的线程访问不同的bank

n 数据分块

u Shared memory block：在SM能够支持的情况下，尽量多地利用此资源提高局部重用性

u Register memory：在shared memory之上可以多加一层寄存器层，进一步提高重用性（寄存器的带宽和延迟都优于共享内存）

n 限制分支

u Warp divergence：尽量减少分支判断，将同一个分支中的thread尽量放在同一个warp中

n 提高计算密度

u Instruction throughput：一方面提高warp的效率，让

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
6
评论
基于CUDA的GPU优化建议

l GPU硬件特性n 存储层次u Global memory：l 大小一般为几GBl chip-off的DRAM介质存储器l 访问速度慢（是shared memory的上百倍）l 对于是否对齐和连续访问敏感（由DRAM的性质决定）l 可以被所有的线程访问u Shared memory：l 每个SM中一般几十KBl ch
复制链接

扫一扫

专栏目录

linyingzhan CSDN认证博客专家 CSDN认证企业博客

码龄15年

86: 原创

111万+: 周排名

76万+: 总排名

5万+: 访问

: 等级

1450: 积分

12: 粉丝

5: 获赞

8: 评论

35: 收藏

私信

关注

热门文章

分类专栏

MPI 2篇
CUDA 16篇
web 1篇
云计算 1篇
小程序杂谈 22篇
java 3篇
操作系统 7篇
编译器 2篇
文章收录 4篇
浏览器 1篇
大排档 6篇
硬件优化 6篇

最新评论

基于CUDA的GPU优化建议
不归牛顿管的熊猫: 写的挺好，就是这排版看着难受
基于CUDA的GPU优化建议
不归牛顿管的熊猫: 写的挺好，就是这排版看着难受
Ubuntu下的CUDA编程（一）
cuda-hjs: 你自己看下你写这个，还以为找到好东西了
x86指令集的一点总结介绍（未完待…
zqs1232014: https://jocent.me/2017/05/26/x86_instruction_set.html 互为补充
基于CUDA的GPU优化建议
linyingzhan 回复 vhust: 实在是不好意思，许久没有上来，也没有跟进这个方面的东西，论文大致是这些，当初看过的挺多，有点忘了是哪些，这儿几篇应该是，可以看看：《An analytical model for a GPU architecture with memory-level and thread-level parallelism awareness》《An Accurate GPU Performance Model for Effective control flow divergence optimization》《Fast Implementation of DGEMM on Fermi GPU》《Demystifying GPU Microarchitecture through Microbenchmarking》

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。