CUDA学习--内存处理之常量内存（4）_cuda 权重用参数还是常量-CSDN博客

本文链接：https://blog.csdn.net/u010335328/article/details/52729039

本文介绍了CUDA中的常量内存，它是一种只读内存，适用于数据广播和高频率读取。常量内存并不单独占用内存空间，而是全局内存的虚拟地址。尽管在某些情况下能提高性能，如数据广播到线程束，但在不同线程读取不同地址时，性能可能下降。在费米架构之后的设备，全局内存的缓存技术使得常量内存的性能优势减弱。常量内存的最大大小为64KB，更新常量内存需要在主机端使用cudaMemcpyToSymbol函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.常量内存

常量内存，顾名思义，它是只读内存。这种类型的内存要么是在编译时声明为只读内存，要么是在运行时通过主机端定义为只读内存。常量只是从GPU内存的角度而言。在编译时声明一块常量内存，需要用到const关键字。
常量内存其实只是全局内存的一种虚拟地址形式，并没有特殊保留的常量内存块。常量内存有两个特性，一个是高速缓存，另一个是它支持将单个值广播到线程束中的每个线程。但要注意的是，对于那些数据不太集中或者数据重用率不高的内存访问，尽量不要使用常量内存。

当常量内存将数据分配或广播到线程束中的每个线程时（注意，实际上硬件会将单次内存读取操作广播到半个线程束），广播能够在单个周期内发生，因此这个特性是非常有用的。虽然当所有16个线程都读取相同地址时，这个功能可以极大提高性能，但当所有16个线程分别读取不同的地址时，它实际上会降低性能。如果半个线程束中的所有16个线程需要访问常量内存中的不同数据，那么这个16次不同的读取操作会被串行化，从而需要16倍的时间来发出请求。但如果从全局内存中读取，那么这些请求就会同时发出。这种情况下，从常量内存读取就会慢于从全局内存中读取。

需要注意的是，当我们声明一个内核常量的时候，在编译器将CUDA C代码转换成PTX汇编代码时会用字面值（0x55555555）直接替换常量值(data)的地址。