CUDA学习_2

最新推荐文章于 2024-08-29 16:08:22 发布

huang_victor

最新推荐文章于 2024-08-29 16:08:22 发布

阅读量90

点赞数

文章标签：学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huang_victor/article/details/131330027

版权

CUDA编程涉及将数据从CPU内存移动到GPU，利用核函数在GPU的多线程结构（thread,block,grid）上执行计算，然后将结果回传至CPU。NVCC是CUDA的编译器，用于替代GCC。线程执行流程包括线程块分配到StreamingMultiprocessors(SM)，Warp调度器管理线程执行，每个Warp由32个线程组成，在GPU的核心上并行运行。

摘要由CSDN通过智能技术生成

CUDA程序编写基本步骤

把输入数据从CPU内存复制到GPU显存
在执行芯片上缓存数据，加载GPU程序并执行
把计算结果从GPU显存中复制到CPU内存中

CUDA编程模式

执行空间
CUDA简单编译

nvcc 代替gcc

3. CUDA的线程层次

thread, block, grid

Thread，执行在core上；

block，执行在SM上；

grid，执行在device上；

4. CUDA内的执行流程

>加载核函数

>grid分配到device

>根据<<<..>>>中的参数，把block分配到SM

>根据<<<..>>>中的参数，Warp调度器启用线程thread

>把32个thread分为1组，称作一个Warp

>每个Warp分配到32个core上运行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA学习_2

根据<<<..>>>中的参数，Warp调度器启用线程thread。>根据<<<..>>>中的参数，把block分配到SM。>把32个thread分为1组，称作一个Warp。>每个Warp分配到32个core上运行。nvcc 代替gcc。grid，执行在device上；Thread，执行在core上；>grid分配到device。block，执行在SM上；
复制链接

扫一扫

huang_victor CSDN认证博客专家 CSDN认证企业博客

码龄5年

37: 原创

105万+: 周排名

34万+: 总排名

2万+: 访问

: 等级

396: 积分

7: 粉丝

20: 获赞

2: 评论

101: 收藏

私信

关注

热门文章

分类专栏

最新评论

点云到图像的投影
躺躺11: 请问博主，这个有相关的开源代码吗？
bevfusion transformation 分析
一拳一个嘤嘤嘤怪: 博主，我看到论文中用swin transformer作为图像主干网络，但是在代码中并没有找到，请问你知道这部分代码在哪里吗
Lidar Object detection
burt_ry: 您好，非常感谢您文章的讲解。请问您关于CenterPoint++部分的详细资料是从哪里找到的，方便分享一下吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。