2024CNCC参会技术分享

基于新兴存储器件的存算一体技术

背景

在人工智能时代,计算机发展面临重大挑战:

  • 规模:晶体管尺寸接近微缩物理极限,芯片规模扩展能力受限

  • 架构:“存算分离”带来的“存储墙”瓶颈制约了计算性能的提升

  • 能耗:单位面积功耗增大,散热问题日趋严峻,“功耗墙”问题凸显

大模型参数规模呈指数级增长,而硬件性能提升速度相对缓慢,网络规模与芯片算力间的剪刀差不断扩大,导致计算硬件瓶颈愈发明显。现有的冯诺依曼架构面向通用计算,程序本身就是数据,处理器与存储器分离的模式使数据和程序都需要运进运出处理器,在执行AI任务时需要更多的额外开销,虽然硬件峰值算力提升显著,但内存访问带宽仍极为受限,实际算力受内存/显存带宽约束,无法发挥应有性能。

硬件类型数据传输功耗数据传输带宽
计算单元< 5 pJ\
片内SRAM50 pJ~80 TB/s
片外DDR5~1.025 nJ~50 TB/s
片外DDR6~4.66 nJ~768 GB/s
片外HBM~2.8 nJ~960 GB/s

存算一体技术通过拉近存储与计算的物理距离,减少高能耗、低带宽的片外数据传输,是打破“存储墙”的有效解决方案。

存算一体技术

基于传统存储器件的存算一体技术

  • SRAM:同时支持逻辑计算和模拟计算,主要挑战是存储密度低和非线性效应

  • DRAM:利用电荷共享机制完成逐位运算,主要挑战是初始电荷残留、破坏性读取以及大电容/速度折中

  • Flash:基于存储状态的逻辑计算,主要挑战在于耐久性和延迟

基于新兴非易失存储器的存算一体技术

新兴存储器件

新型非易失存储器包括ReRAM、PCM、MRAM、FeFET、ECRAM等,其与传统存储器件的本质区别是:传统器件通过单纯的电子运动来记录数据,新兴存储器则以真实的物理变化来记录数据。这种离子运动较电子运动更稳定,行为更丰富:

  • 长期稳定——非易失性好

  • 微小尺寸下稳定——扩展性好

  • 低压操作——持久性好

以忆阻器为例,其支持模拟态调控(5~11 bits)、良好的非易失性(> 10 years)、极小尺寸(2 x 2 nm2)和3D堆叠,使其相较于传统存储器在片上集成密度和非易失性等方面具有独特优势。

存储器SRAMDRAMNOR-FlashRRAMPCMMRAMFeFET
写速度1 ~ 10 ns> 20 ns1 ~ 10 μs> 10 ns~50 ns> 10 ns> 10 ns
读速度1 ~ 10 ns> 20 ns20 ~ 100 ns> 10 ns> 10 ns> 10 ns> 10 ns
静态功耗
刷新要求定期刷新
集成密度
耐久性接近无限接近无限104 ~ 105> 1012> 109> 1012> 105
保持性断电丢失断电丢失断电稳定断电稳定断电稳定断电稳定断电稳定
比特数1 bit1 bit1 ~ 2 bit5 ~ 11 bit1 bit1 bit~4 bit
成本
国内外存算一体芯片/系统的若干工作
  • UCSB 2015:首次展示12 x 12的阵列

  • UMass 2017:128 x 64(8K)的阵列

  • UMich 2019:集成控制器的原型芯片

  • Stanford 2022:片上网络三百万器件

  • IBM 2023:多核并行的35M PCM器件

单阵列尺寸更大、系统集成度更高、芯片功能更完善,近十年间取得了快速的发展,部分技术正逐步从实验室向工业界过渡。

基于模拟器件的存算一体系统

存算一体系统需要多个层面的协同发展:

  • 架构:支持存储与计算融合;并行和模拟计算;冗余设计

  • 编译:高效映射计算任务到存储阵列中、优化并行化以及处理计算误差和容错性

  • 算法:硬件感知训练算法

应用场景:

  • 规模:目前多核CIM芯片集成器件数超过3500万

  • 应用:模拟存算芯片在图像识别,语音处理、组合优化、科学计算等领域广泛应用

总结

  • 物理计算:利用利用器件自身的物理特性作为计算的载体

  • 器件优化:规模集成中间器件性能优化

  • 系统属性:软硬协同,多学科交叉是当前新AI时代系统发展的趋势

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值