DDR从channel/rank/chip/bank/row/col/cell,DDR/GDDR/HBM

DDR/GDDR/HBM请参考文献

1.ddr的层级结构

一个soc或者PC上的ddr都是有很多颗ddr single chip组成的。这么多颗ddr又组成了不同的层级。这些层级从大到小分为:

channel->rank->chip->bank->row->col->cell

其中channel->rank->chip是ddr颗粒(就是单颗ddr,对应上图中黑色方块)之外的层级,bank->row->col->cell是ddr颗粒内部的层级。

1.1ddr颗粒之外的层级

一个现实的例子是:(该实例摘自原文链接:https://blog.csdn.net/u012489236/article/details/107730731)

在这个例子中,一个i7 CPU支持两个Channel(双通道),每个Channel上可以插俩个DIMM,而每个DIMM由两个rank构成,8个chip组成一个rank。由于现在多数内存颗粒的位宽是8bit,而CPU带宽是64bit,所以经常是8个颗粒可以组成一个rank。所以内存条2R X 8的意思是由2个rank组成,每个rank八个内存颗粒。由于整个内存是4GB,我们可以算出单个内存颗粒是256MB。
   

以 hmt351s6bfr8c-h9内存条为例 一个i7的cpu支持两个通道 每个通道上插两个DIMM就可以一共插4个hmt351s6bfr8c-h9内存条。共16G。

一个hmt351s6bfr8c-h9内存条就是一块DIMM(Dual Inline Memory Module,双列直插内存模块, 或者有的叫做内存模组)。

1.2 DDR颗粒内部的层级

这次我们来看看rank和Chip里面有什么,如下图:

这是个DDR3一个Rank的示意图。我们把左边128MB Chip拆开来看,它是由8个Bank组成,每个Bank核心是一个存储矩阵,就像一个大方格子阵。这个格子(cell)阵有很多列(Column)和很多行(Row),这样我们想存取某个格子(cell),只需要告知是哪一行哪一列就行了,这也是为什么内存可以随机存取而硬盘等则是按块存取的原因。

实际上每个格子的存储宽度是内存颗粒(Chip)的位宽,在这里由8个Chip组成一个Rank,而CPU寻址宽度是64bit,所以64/8=8bit,即每个格子是1个字节。
 

2.ddr地址的时分复用

DDR4芯片有20根地址线(17根Address、2根BA、1根BG),16根数据线。在搞清楚这些信号线的作用以及地址信号为何还有复用功能之前,我们先抛出1个问题。假如我们用20根地址线,16根数据线,设计一款DDR,我们能设计出的DDR寻址容量有多大?

Size(max)=(2^20) * 16=1048576 * 16=16777216bit=2097152B=2048KB=2MB。

但是事实上,该DDR最大容量可以做到1GB,比传统的单线编码寻址容量大了整整512倍,它是如何做到的呢?答案很简单,分时复用。我们把DDR存储空间可以设计成如下样式:

首先将存储空间分成两个大块,分别为BANK GROUP0和BANK GROUP1,再用1根地址线(还剩19根),命名为BG,进行编码。若BG拉高选择BANK GROUP0,拉低选择BANK GROUP1。(当然你也可以划分成4个大块,用2根线进行编码)

再将1个BANK GROUP区域分成4个BANK小区域,分别命名为BANK0、BANK1、BANK2、BANK3。然后我们挑出2根地址线(还剩余17根)命名为BA0和BA1,为4个小BANK进行地址编码。

此时,我们将DDR内存颗粒划分成了2个BANK GROUP,每个BANK GROUP又分成了4个BANK,共8个BANK区域,分配了3根地址线,分别命名为BG0,BA0,BA1。然后我们还剩余17根信号线,每个BANK又该怎么设计呢?这时候,就要用到分时复用的设计理念了。

剩下的17根线,第一次用来表示行地址,第二次用来表示列地址。现在修改为传输2次地址,在传输1次数据,寻址范围最多被扩展为2GB。虽然数据传输速度降低了一半,但是存储空间被扩展了很多倍。这就是改善空间。

所以,剩下的17根地址线,留1根用来表示传输地址是否为行地址。

在第1次传输时,行地址选择使能,剩下16根地址线,可以表示行地址范围,可以轻松算出行地址范围为2^16=65536个=64K个。
在第2次传输时,行地址选择禁用,剩下16根地址线,留10根列地址线表示列地址范围,可以轻松表示的列地址范围为2^10=1024个=1K个,剩下6根用来表示读写状态/刷新状态/行使能、等等复用功能。
这样,我们可以把1个BANK划分成67108864个=64M个地址编号。如下所示
所以1个BANK可以分成65536行,每行1024列,每个存储单元16bit。
所以1个BANK可以分成65536行,每行1024列,每个存储单元16bit。

每行可以存储1024*16bit=2048bit=2KB。每行的存储的容量,称为Page Size。

单个BANK共65536行,所以每个BANK存储容量为65536*2KB=128MB。

单个BANK GROUP共4个BANK,每个BANK GROUP存储容量为512MB。

单个DDR4芯片有2个BANK GROUP,故单个DDR4芯片的存储容量为1024MB=1GB。

至此,20根地址线和16根数据线全部分配完成,我们用正向设计的思维方式,为大家讲解了DDR4的存储原理以及接口定义和寻址方式。
 

3. 总结


本章主要是针对DDR的发展和原理进行了学习,主要集中在硬件的组成原理,其中涉及到Channel > DIMM > Rank > Chip > Bank > Row/Column,其组成如下图所示

  • Channel:一个主板上可能有多个插槽,用来插多根内存。这些槽位分成两组或多组,组内共享物理信号线。这样的一组数据信号线、对应几个槽位(内存条)称为一个channel(通道)。简单理解就是DDRC(DDR控制器),一个通道对应一个DDRC。CPU外核或北桥有两个内存控制器,每个控制器控制一个内存通道。内存带宽增加一倍。(理论上)
  • DIMM(dual inline memory module)是主板上的一个内存插槽。一个Channel可以包括多个DIMM。
  • Rank是一组内存芯片的集合,当芯片位宽x芯片数=64bits(内存总位宽)时,这些芯片就组成一个Rank。一般是一个芯片位宽8bit,然后内存每面8个芯片,那么这一面就构成一个Rank(为了提高容量,有些双面内存条就有两个rank。在DDR总线上可以用一根地址线来区分当前要访问的是哪一组)。同一个Rank中的所有芯片协作来共同读取同一个Address(一个Rank8个芯片 * 8bit = 64bit),这个Address的数据分散在这个Rank的不同芯片上。设计Rank的原因是这样可以使每个芯片的位宽小一些,降低复杂度。
  • Chip是内存条上的一个芯片。由图中是由8个bank组成了一个memory device。
  • Bank:Bank是一个逻辑上的概念。一个Bank可以分散到多个Chip上,一个Chip也可以包含多个Bank。Bank和Chip的关系可以参考下面的图,每次读数据时,选定一个Rank,然后同时读取每个chip上的同一bank。
  • Row/Column组成的Memeory Array:Bank可以理解为一个二维数组bool Array[Row][Column]。而Row/Column就是指示这个二维数组内的坐标。注意读取时每个Bank都读取相同的坐标

更多内容可以参考深入浅出DDR系列(一)--DDR原理篇

4.HBM

HBM是high bandwidth memory,高带宽memory。既然是高带宽,少不了需要大位宽和高速。无论是DDR还是HBM都是并口传输。HBM显然提供了比普通DDR更多的接口线和速率。

现在HBM3e已经能够做到速率为8GT/s(Giga Transmission per second).而21年出来的DDR5的速度范围从4800MT/s一直到7800MT/s.计划更大速率的DDR6在2024年还尚未发布。

这里重点提一下传输速率,再说DDR的时候 DDR4800,DDR6000都是说的传输速率,也就是一秒钟进行多少次传输。换算成gbps还要知道一次传输携带多少bit的有效信息。另外对于DDR和HBM都是双沿传输,所以内部时钟频率都是传输速率的一半。DDR4800的工作频率是2400MHz,DDR6000的工作频率是3000MHz。

单颗DDR5可以做到64bit位宽,那么单颗DDR5-4800数据速率就是4800x64/8=38.4GB/s。

HBM3e【2024年第一季度发布】用了最大12层堆叠(stack)(12H) 36GB的容量,接口位宽达到1024bit。传输速率8GT/s,换算到数据速率就是8000x1024/8=1024GB/s.

目前市面上单个HBM3/3E都是16channel,32个pseudo channel,所以一个channel 64bit位宽。

一个channel可以是由一个stack,或者多个,或者非整数个stack构成

HBM2主流就是8channel,channel越多,带宽越大,当然对应控制器和相关逻辑越多越复杂。

HBM的stack就是一层堆叠的意思

HBM是利用3D封装,层与层之间使用TSV(硅穿孔)技术进行多个裸片的封装与互联通信。

芯片生产封装过程简介及概念_芯片bump-CSDN博客

相比于DDR,HBM也有自己的确定就是延迟要比DDR大,【可以理解HBM内部数据在多层级传输要比单层的DDR慢】。

5.DDR地址交织与bank

ddr颗粒读写数据的过程是先把一个bank内的某一行数据读到该bank对应的IOBUFF中,记这个时间为T0,然后如果是读,就把ioBuff中对应column的数据读出。如果是写,就把对应column的数据更新。最终在把整个ioBuff的一行数据precharge到原bank中,这个时间为T1。

在上面的过程中,我们把从bank中读一行到iobuff和iobuff precharge到bank的过程分别叫做开页和关页(bank中的一行ROW,称作一页)。也就是开页时间为T0,关页时间为T1。T0/T1的时间是比较长的,远大于DDR clk,所以如果频繁的开关页会严重影响数据速率。所以为了解决这个问题,一个DDR颗粒里面有多个bank,每一个bank都有自己的iobuff。我们把读写数据均匀的分布到所有的bank假设有N个,当然最理想的是每次读写都是所有bank轮询,然后DDR的数据线DQ在某一时刻就传输被选中的bank iobuff中的数据。这样每一个bank就有N-1倍的时间用于开关页。

当然不可能达到理论上的完全平均访问N个bank。我们在control中使用地址交织就是为了让读写平均分配在不同的bank上。

400.参考文献

内存系列一:快速读懂内存条标签

内存系列二:深入理解硬件原理

内存系列三:内存初始化浅析

DDR3 vs DDR4? 为什么说内存是个很傻的设备?DDR5在哪里?

DDR5有什么新特性?是不是该等它再升级电脑呢?

GDDR6 vs DDR4 vs HBM2?为什么CPU还不用GDDR?异构内存的未来在哪里? 老狼

  • 4
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值