CUDA编程:概述

本文深入探讨CUDA编程,介绍了GPU的硬件架构,包括SM、CudaCore和内存层次。阐述了CUDA线程组织、内存布局、核函数的使用以及内存复制和流的概念。还提到了CUDA编程中的关键概念,如warpSize、gridDim和blockDim,并强调了异步复制和原子操作的重要性。
摘要由CSDN通过智能技术生成

CUDA编程

  • GPU的架构
  • 每个GPU由N个SM组成,1个SM分为2个SMP,1个SMP有16个DPUnit和32个CudaCore以及一些特殊函数处理模块
    • 比如说, RTX 2080Ti,具有68个SM,总共有 68 x 64 个CudaCore
    • SM全称(Streaming Multiprocessor)
    • WarpSize一般为32(这个大部分都这个数)
      • 最小调度单位,也就是最小调度单位是一个SMP
      • 如果启动线程数小于32,他依旧启动32线程,仅仅是其他线程处于非激活状态deactive
    • 内存,分为GlobalMemory、SharedMemory、缓存、寄存器等
      • 理解内存的排布,是优化编程的基础
      • 距离Core越近的内存,速度越快
    • 架构名称
      • 不同的架构,具有不同的显卡硬件设置,比如说游戏级更注重渲染,工业级更注重科学计算或者是长期运行(所以散热等更注重)。
      • 比如说,工业级,会增加例如TensorCore、DLA、FP16、INT8、INT4等NN的支持。而这些,游戏级别大部分没有
      • 架构一般有:图灵(Turing、游戏级)、帕斯
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值