（Cuda）基础知识（一）

最新推荐文章于 2024-08-23 23:10:33 发布

沤江一流

最新推荐文章于 2024-08-23 23:10:33 发布

阅读量7.1k

点赞数 3

分类专栏： Cuda 文章标签： Cuda

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mounty_fsc/article/details/51092920

版权

Cuda 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文地址http://blog.csdn.net/mounty_fsc/article/details/51092920

本部分内容为[1]CUDA_C_Programming_Guide.pdf中笔记

1 限定符

1.1 函数限定符

限定符	执行	调用
`__device__`	device	device
`__global__`	device	host（计算能力3.x可device )
`__host__`	host	host

1.2 变量限定符

限定符	变量位置	device访问	host访问	生命周期
`__device__`	device(global memory default)	所有线程	通过运行时库	application
`__constant__`	constant memory	所有线程	通过运行时库	application
`__shared__`	shared memory of a thread block	块内线程	不可访问	block

注：__device__可以与__constant__或__shared__配合使用

2 内建类型变量

2.1 内建类型

基本类型：char, short, int, long, longlong, float, double
向量类型：基于基本类型，如int1,int2,int3,int4,uint4等等，每一维分别由x,y,z,w访问
维度类型：dim3，基于unit3，未初始化的维度赋值为1

2.2 内建变量

变量	类型	说明
gridDim	dim3	一般用2维
blockDim	dim3	一般用2维
blockIdx	uint3	当前grid中block索引
threadIdx	uint3	当前block中thread索引
warpSize	int	warp size in threads(1.0:24,>1.0:32)

- warp 线程束

3 Kernels

Kernels为从CPU上调用，在GPU上执行的函数。该函数由GPU上的线程执行N次。
定义方式为：

__global__ void Func(float* parameter);

调用方式为：

Func<<< Dg, Db, Ns, S >>>(parameter);

其中：

Dg规定了Grid包含Block的维度（尺寸），类型为dim3
Db规定了Block包含Thread的维度（尺寸），类型为dim3
Ns规定了每个Block中动态分配的共享存储器（shared memory）大小（可选，默认为0)
S为流（可选，默认流为0）

4 线程层次

4.1 线程层次

为 一个Grid -> 多个Block -> 多个Thread

这里写图片描述

4.2 线程索引

列优先
一维block：线程索引x与线程ID相等
二维block(Dx,Dy)：索引index (x, y)的线程ID为 (x + yDx)
三维block(Dx,Dy,Dz)：索引index (x, y, z)的线程ID为(x + yDx + zDxDy)

4.3 其它

当前一个block最多可以有1024个线程（老一点设备为512）

5 存储器层次

这里写图片描述

常量、纹理存储器为只读

6 软件栈

这里写图片描述

[1].CUDA_C_Programming_Guide.pdf

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。