DDR从channel/rank/chip/bank/row/col/cell,DDR/GDDR/HBM

cy413026

已于 2024-12-14 11:09:08 修改

阅读量5.4k

点赞数 7

分类专栏：存储及内存文章标签： java 网络数据库

于 2021-03-08 16:19:34 首次发布

原文链接：https://blog.csdn.net/u012489236/article/details/107730731

版权

存储及内存专栏收录该内容

14 篇文章

订阅专栏

本文详细解析了DDR内存的层级结构，包括颗粒外部的Channel、Rank和Chip，以及内部Bank、Row和Column的组织。介绍DDR地址的时分复用技术，并对比了HBM在带宽和延迟上的特点。最后梳理了DDR发展史和关键技术要点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DDR/GDDR/HBM请参考文献

1.ddr的层级结构

一个soc或者PC上的ddr都是有很多颗ddr single chip组成的。这么多颗ddr又组成了不同的层级。这些层级从大到小分为：

channel->rank->chip->bank->row->col->cell

其中channel->rank->chip是ddr颗粒(就是单颗ddr，对应上图中黑色方块)之外的层级，bank->row->col->cell是ddr颗粒内部的层级。

1.1ddr颗粒之外的层级

一个现实的例子是：(该实例摘自原文链接：https://blog.csdn.net/u012489236/article/details/107730731)

在这个例子中，一个i7 CPU支持两个Channel（双通道），每个Channel上可以插俩个DIMM,而每个DIMM由两个rank构成，8个chip组成一个rank。由于现在多数内存颗粒的位宽是8bit,而CPU带宽是64bit，所以经常是8个颗粒可以组成一个rank。所以内存条2R X 8的意思是由2个rank组成，每个rank八个内存颗粒。由于整个内存是4GB，我们可以算出单个内存颗粒是256MB。

以 hmt351s6bfr8c-h9内存条为例一个i7的cpu支持两个通道每个通道上插两个DIMM就可以一共插4个hmt351s6bfr8c-h9内存条。共16G。

一个hmt351s6bfr8c-h9内存条就是一块DIMM(Dual Inline Memory Module，双列直插内存模块, 或者有的叫做内存模组)。

1.2 DDR颗粒内部的层级

这次我们来看看rank和Chip里面有什么，如下图：

这是个DDR3一个Rank的示意图。我们把左边128MB Chip拆开来看，它是由8个Bank组成，每个Bank核心是一个存储矩阵，就像一个大方格子阵。这个格子(cell)阵有很多列（Column）和很多行（Row），这样我们想存取某个格子(cell)，只需要告知是哪一行哪一列就行了，这也是为什么内存可以随机存取而硬盘等则是按块存取的原因。

实际上每个格子的存储宽度是内存颗粒（Chip）的位宽，在这里由8个Chip组成一个Rank，而CPU寻址宽度是64bit,所以64/8=8bit，即每个格子是1个字节。

2.ddr地址的时分复用

DDR4芯片有20根地址线（17根Address、2根BA、1根BG），16根数据线。在搞清楚这些信号线的作用以及地址信号为何还有复用功能之前，我们先抛出1个问题。假如我们用20根地址线，16根数据线，设计一款DDR，我们能设计出的DDR寻址容量有多大？

Size（max）=(2^20) * 16=1048576 * 16=16777216bit=2097152B=2048KB=2MB。

但是事实上，该DDR最大容量可以做到1GB，比传统的单线编码寻址容量大了整整512倍，它是如何做到的呢？答案很简单，分时复用。我们把DDR存储空间可以设计成如下样式：

首先将存储空间分成两个大块，分别为BANK GROUP0和BANK GROUP1，再用1根地址线（还剩19根），命名为BG，进行编码。若BG拉高选择BANK GROUP0，拉低选择BANK GROUP1。（当然你也可以划分成4个大块，用2根线进行编码）

再将1个BANK GROUP区域分成4个BANK小区域，分别命名为BANK0、BANK1、BANK2、BANK3。然后我们挑出2根地址线（还剩余17根）命名为BA0和BA1，为4个小BANK进行地址编码。

此时，我们将DDR内存颗粒划分成了2个BANK GROUP，每个BANK GROUP又分成了4个BANK，共8个BANK区域，分配了3根地址线，分别命名为BG0，BA0，BA1。然后我们还剩余17根信号线，每个BANK又该怎么设计呢？这时候，就要用到分时复用的设计理念了。

剩下的17根线，第一次用来表示行地址，第二次用来表示列地址。现在修改为传输2次地址，在传输1次数据，寻址范围最多被扩展为2GB。虽然数据传输速度降低了一半，但是存储空间被扩展了很多倍。这就是改善空间。

所以，剩下的17根地址线，留1根用来表示传输地址是否为行地址。

在第1次传输时，行地址选择使能，剩下16根地址线，可以表示行地址范围，可以轻松算出行地址范围为2^16=65536个=64K个。
在第2次传输时，行地址选择禁用，剩下16根地址线，留10根列地址线表示列地址范围，可以轻松表示的列地址范围为2^10=1024个=1K个，剩下6根用来表示读写状态/刷新状态/行使能、等等复用功能。
这样，我们可以把1个BANK划分成67108864个=64M个地址编号。如下所示
所以1个BANK可以分成65536行，每行1024列，每个存储单元16bit。
所以1个BANK可以分成65536行，每行1024列，每个存储单元16bit。

每行可以存储1024*16bit=2048bit=2KB。每行的存储的容量，称为Page Size。

单个BANK共65536行，所以每个BANK存储容量为65536*2KB=128MB。

单个BANK GROUP共4个BANK，每个BANK GROUP存储容量为512MB。

单个DDR4芯片有2个BANK GROUP，故单个DDR4芯片的存储容量为1024MB=1GB。

至此，20根地址线和16根数据线全部分配完成，我们用正向设计的思维方式，为大家讲解了DDR4的存储原理以及接口定义和寻址方式。

3. 总结

本章主要是针对DDR的发展和原理进行了学习，主要集中在硬件的组成原理，其中涉及到Channel > DIMM > Rank > Chip > Bank > Row/Column，其组成如下图所示

Channel：一个主板上可能有多个插槽，用来插多根内存。这些槽位分成两组或多组，组内共享物理信号线。这样的一组数据信号线、对应几个槽位（内存条）称为一个channel（通道）。简单理解就是DDRC(DDR控制器)，一个通道对应一个DDRC。CPU外核或北桥有两个内存控制器，每个控制器控制一个内存通道。内存带宽增加一倍。（理论上）
DIMM(dual inline memory module)是主板上的一个内存插槽。一个Channel可以包括多个DIMM。
Rank是一组内存芯片的集合，当芯片位宽x芯片数=64bits（内存总位宽）时，这些芯片就组成一个Rank。一般是一个芯片位宽8bit，然后内存每面8个芯片，那么这一面就构成一个Rank（为了提高容量，有些双面内存条就有两个rank。在DDR总线上可以用一根地址线来区分当前要访问的是哪一组）。同一个Rank中的所有芯片协作来共同读取同一个Address（一个Rank8个芯片 * 8bit = 64bit），这个Address的数据分散在这个Rank的不同芯片上。设计Rank的原因是这样可以使每个芯片的位宽小一些，降低复杂度。
Chip是内存条上的一个芯片。由图中是由8个bank组成了一个memory device。
Bank：Bank是一个逻辑上的概念。一个Bank可以分散到多个Chip上，一个Chip也可以包含多个Bank。Bank和Chip的关系可以参考下面的图，每次读数据时，选定一个Rank，然后同时读取每个chip上的同一bank。
Row/Column组成的Memeory Array：Bank可以理解为一个二维数组bool Array[Row][Column]。而Row/Column就是指示这个二维数组内的坐标。注意读取时每个Bank都读取相同的坐标

更多内容可以参考深入浅出DDR系列(一)--DDR原理篇

4.HBM

HBM是high bandwidth memory，高带宽memory。既然是高带宽，少不了需要大位宽和高速。无论是DDR还是HBM都是并口传输。HBM显然提供了比普通DDR更多的接口线和速率。

现在HBM3e已经能够做到速率为8GT/s(Giga Transmission per second).而21年出来的DDR5的速度范围从4800MT/s一直到7800MT/s.计划更大速率的DDR6在2024年还尚未发布。

这里重点提一下传输速率，再说DDR的时候 DDR4800，DDR6000都是说的传输速率，也就是一秒钟进行多少次传输。换算成gbps还要知道一次传输携带多少bit的有效信息。另外对于DDR和HBM都是双沿传输，所以内部时钟频率都是传输速率的一半。DDR4800的工作频率是2400MHz，DDR6000的工作频率是3000MHz。

单颗DDR5可以做到64bit位宽，那么单颗DDR5-4800数据速率就是4800x64/8=38.4GB/s。

HBM3e【2024年第一季度发布】用了最大12层堆叠(12H) 36GB的容量，接口位宽达到1024bit。传输速率8GT/s,换算到数据速率就是8000x1024/8=1024GB/s.

目前市面上单个HBM3/3E都是16channel，32个pseudo channel，所以一个channel 64bit位宽。

一个channel可以是由一个层，或者多个，或者非整数个层构成

HBM2主流就是8channel，channel越多，带宽越大，当然对应控制器和相关逻辑越多越复杂。

HBM是利用3D封装，层与层之间使用TSV(硅穿孔)技术进行多个裸片的封装与互联通信。

芯片生产封装过程简介及概念_芯片bump-CSDN博客

相比于DDR，HBM也有自己的确定就是延迟要比DDR大，【可以理解HBM内部数据在多层级传输要比单层的DDR慢】。

5.DDR地址交织与bank

ddr颗粒读写数据的过程是先把一个bank内的某一行数据读到该bank对应的IOBUFF中，记这个时间为T0，然后如果是读，就把ioBuff中对应column的数据读出。如果是写，就把对应column的数据更新。最终在把整个ioBuff的一行数据precharge到原bank中，这个时间为T1。

在上面的过程中，我们把从bank中读一行到iobuff和iobuff precharge到bank的过程分别叫做开页和关页(bank中的一行ROW，称作一页)。也就是开页时间为T0，关页时间为T1。T0/T1的时间是比较长的，远大于DDR clk，所以如果频繁的开关页会严重影响数据速率。所以为了解决这个问题，一个DDR颗粒里面有多个bank，每一个bank都有自己的iobuff。我们把读写数据均匀的分布到所有的bank假设有N个，当然最理想的是每次读写都是所有bank轮询，然后DDR的数据线DQ在某一时刻就传输被选中的bank iobuff中的数据。这样每一个bank就有N-1倍的时间用于开关页。

当然不可能达到理论上的完全平均访问N个bank。我们在control中使用地址交织就是为了让读写平均分配在不同的bank上。