CUDA中的名词

本文介绍了Turing架构中的RT Core,这是一种专用于计算射线与三角形交点的ASIC流水线,显著提升了光线追踪性能。此外,还提及了Dram、Localmemory、CTA、SMSPs、Warp等GPU内部概念,帮助理解GPU的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

在写kernel分析或者看一些博客的时候经常遇到一些名词,这里记录一下

具体

下面的名词解释都是基于turing架构,一个简单的架构图共展示说明。
在这里插入图片描述

RT core实质上就是SM里面加了一条专用的流水线(ASIC)来计算射线和三角形求交,可以访问BVH,由于是ASIC专用电路逻辑,所以和用shader code来做求交计算相比,性能/mm^2可以有数量级的提升

名词说明
dram设备内存(也叫显存,也叫主存(main memory)), 是存放global memory 和 local memory
Local memorylocal memory不是一种物理的内存类型,算是一个抽象的global memory,
CTAcooperrative thread arrays, 也就是block, 其实就是warp的上一层,不知道为啥搞一个很玄学的名字
SMSPs每个SM(如上图)被切分四个处理单元 被称为SM sub partitions, 这些处理单元是SM的主要组成部分,一个子单元负责一个固定尺寸的warps pool.
warp一个warp由32个线程组成,可以认为是最小执行单元,一个warp会被分在一个sub partition中,从launch到结束
instruction指令指的是一个SASS(汇编指令),每一个执行的指令可能会产生0或者多个request(请求),一般情况是等于一个请求,在这里插入图片描述
sectorcuda里的一种计数单位,32字节(bytes)
DeepSeek CUDA听起来像是结合了特定深度学习框架(如可能是自定义或新兴的“DeepSeek”框架)和CUDA技术的一个应用或者项目,不过直接搜索这个名字并没有广泛认可的结果,这可能是一个假设性的名称组合。 让我分别解释这两个术语: ### DeepSeek 如果你指的是某个具体的名为"DeepSeek"的技术、工具或是平台的话,在目前的信息环境下它并不是一个广为人知的概念。也许它是某家公司内部使用的专有名词或者是尚处于早期发展阶段的产品/研究方向等,请提供更多上下文以便给出更准确的回答。 ### CUDA简介 CUDA (Compute Unified Device Architecture) 是由英伟达(NVIDIA)推出的一种并行计算架构。该架构让开发者能够利用GPU的强大浮点运算能力来进行通用目的计算任务(GPGPU),而不仅仅是图形渲染工作。通过CUDA提供的API接口,程序员可以用C/C++语言编写程序,并将其映射到GPU上运行以加速处理速度。对于机器学习尤其是神经网络训练来说,CUDA配合cuDNN库可以极大地提升模型训练效率。 如果确实存在将两者结合起来的应用场景——比如基于某种深度学习优化算法构建于支持CUDA加速环境之上,则这样的系统将会拥有高效的数据并行处理性能以及良好的硬件适配度,适用于需要大量数值计算的任务,例如大规模图像识别、自然语言处理等领域内的复杂模型训练过程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值