GPU高性能运算之CUDA/第二章 CUDA基础1

最新推荐文章于 2021-12-29 20:52:21 发布

hnuzhoulin

最新推荐文章于 2021-12-29 20:52:21 发布

阅读量1.9k

点赞数

文章标签： cuda thread api 编程活动

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hnuzhoulin/article/details/4927151

版权

1.dim3是基于unit3定义的矢量类型，相当于3个unsigned int型组成的结构体。

2.通常，block的数量应该至少是处理核心的数量的几倍，才能有效的发挥GPU的处理能力。

3.关于shared memory的分配，有两种方式。其一就是静态分配，此时在调用kernel程序时是没有指定大小的，而是在kernel程序中通过_shared_来分配，注意此时一定要指明分配大小。其二是动态分配，也就是在调用kernel时指定了大小，那么在kernel程序中使用

external _shared_来分配，大小就是调用kernel时指定的。

4.CUDA中的kernel函数实质上是以block为单位执行的，同一个block中的线程需要共享数据，因此他们必须在同一份SM中发射，而block中的每一个thread则被发射到一个SP上执行。一个block必须被分配到一个SM中，但是一个SM中同一时刻可以有多个活动的线程块在等待执行。

5.？？今天突然犯糊涂了，因为发现一个SM中也就8个SP，而一个SM中未必只含一个block，而一个block中可以最多有512个thread，还有线程束warp，这几个概念间是什么关系啊，就是说这个执行单元SP如何决定线程数？？书上说warp中包含32个线程是因为每发射一条warp指令，SM中的8个SP会将指令执行4遍。不明白！！！由此我都不明白到底线程是个什么东西了？？

6.CUDA程序要尽量避免分支，并尽量做到warp内不分支，否则会导致性能急剧下降。

7.在进行CUDA编程之前，我觉得还需要知道电脑中支持CUDA的装置的数目以及一些性质，比如支持CUDA版本、global memory的大小、SM，SP的数量、以及支持的内存种类等等，这样就可以充分发挥装置的性能

8.在调用CUDA runtime API时如果能够用CUDA_SAFE_CALL(CUDA runtime API函数)形式会比较好，因为它是头文件cutil.h中用于检查程序运行错误的宏函数，这样当运行错误时会在窗口显示错误类型，对于程序的调试很有帮助。

9.CUT_EXIT()也是cutil头文件中的另一个宏函数，用以在程序运行完成后等待用户输入再关闭窗口，而默认控制台程序运行后，通常马上关闭。若希望直接退出，可以在运行main函数时加上"-noprompt"命令行选项。？？？请问这个命令行选项如何让添加。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GPU高性能运算之CUDA/第二章 CUDA基础1

1.dim3是基于unit3定义的矢量类型，相当于3个unsigned int型组成的结构体。2.通常，block的数量应该至少是处理核心的数量的几倍，才能有效的发挥GPU的处理能力。3.关于shared memory的分配，有两种方式。其一就是静态分配，此时在调用kernel程序时是没有指定大小的，而是在kernel程序中通过_shared_来分配，注意此时一定要指明分配大小。其二
复制链接

扫一扫

hnuzhoulin CSDN认证博客专家 CSDN认证企业博客

码龄17年

16: 原创

39万+: 周排名

116万+: 总排名

2万+: 访问

: 等级

493: 积分

40: 粉丝

3: 获赞

10: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

很久没有来这里写写了
benben_shayatou: 写写吧呵呵，俺来看呵呵
CUDA的SDK里的N-body例子疑问
yaoyuanzhi2008: 这里应该就是每个线程计算出sharedPos的一个元素 warp是相当于四舍五入的道理
CUDA的SDK里的N-body例子疑问
yaoyuanzhi2008: 。。。。楼主表述很不清楚 Q为线程数?这里面貌似有很多点，楼主就没有把调用内核函数的部分贴出看来，我们怎么知道是不是一个block。。。
CUDA学习之旅2009.11.10---《深入浅出CUDA》学习2
xiaowen1996: 你好，我是CUDA初学者，最近在看《深入浅出CUDA》，关于你的第二个问题，我起初也看不懂，后来在CPU上模拟了一下，发现确实是可行的。我不知道自己想的是不是对的，能交个朋友，交流一下吗？想听听你时隔一年后的理解
CUDA学习之旅2009.11.9---《深入浅出CUDA》学习1
hero06: LZ,我笔记本电脑是ATI公司的显卡，要运行CUDA程序的话，要么仿真，要么换nvidia公司的显卡吗？谢谢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。