基于新兴存储器件的存算一体技术
背景
在人工智能时代,计算机发展面临重大挑战:
-
规模:晶体管尺寸接近微缩物理极限,芯片规模扩展能力受限
-
架构:“存算分离”带来的“存储墙”瓶颈制约了计算性能的提升
-
能耗:单位面积功耗增大,散热问题日趋严峻,“功耗墙”问题凸显
大模型参数规模呈指数级增长,而硬件性能提升速度相对缓慢,网络规模与芯片算力间的剪刀差不断扩大,导致计算硬件瓶颈愈发明显。现有的冯诺依曼架构面向通用计算,程序本身就是数据,处理器与存储器分离的模式使数据和程序都需要运进运出处理器,在执行AI任务时需要更多的额外开销,虽然硬件峰值算力提升显著,但内存访问带宽仍极为受限,实际算力受内存/显存带宽约束,无法发挥应有性能。
硬件类型 | 数据传输功耗 | 数据传输带宽 |
---|---|---|
计算单元 | < 5 pJ | \ |
片内SRAM | 50 pJ | ~80 TB/s |
片外DDR5 | ~1.025 nJ | ~50 TB/s |
片外DDR6 | ~4.66 nJ | ~768 GB/s |
片外HBM | ~2.8 nJ | ~960 GB/s |
存算一体技术通过拉近存储与计算的物理距离,减少高能耗、低带宽的片外数据传输,是打破“存储墙”的有效解决方案。
存算一体技术
基于传统存储器件的存算一体技术
-
SRAM:同时支持逻辑计算和模拟计算,主要挑战是存储密度低和非线性效应
-
DRAM:利用电荷共享机制完成逐位运算,主要挑战是初始电荷残留、破坏性读取以及大电容/速度折中
-
Flash:基于存储状态的逻辑计算,主要挑战在于耐久性和延迟
基于新兴非易失存储器的存算一体技术
新兴存储器件
新型非易失存储器包括ReRAM、PCM、MRAM、FeFET、ECRAM等,其与传统存储器件的本质区别是:传统器件通过单纯的电子运动来记录数据,新兴存储器则以真实的物理变化来记录数据。这种离子运动较电子运动更稳定,行为更丰富:
-
长期稳定——非易失性好
-
微小尺寸下稳定——扩展性好
-
低压操作——持久性好
以忆阻器为例,其支持模拟态调控(5~11 bits)、良好的非易失性(> 10 years)、极小尺寸(2 x 2 nm2)和3D堆叠,使其相较于传统存储器在片上集成密度和非易失性等方面具有独特优势。
存储器 | SRAM | DRAM | NOR-Flash | RRAM | PCM | MRAM | FeFET |
---|---|---|---|---|---|---|---|
写速度 | 1 ~ 10 ns | > 20 ns | 1 ~ 10 μs | > 10 ns | ~50 ns | > 10 ns | > 10 ns |
读速度 | 1 ~ 10 ns | > 20 ns | 20 ~ 100 ns | > 10 ns | > 10 ns | > 10 ns | > 10 ns |
静态功耗 | 高 | 中 | 无 | 无 | 无 | 无 | 无 |
刷新要求 | 无 | 定期刷新 | 无 | 无 | 无 | 无 | 无 |
集成密度 | 低 | 中 | 低 | 高 | 高 | 高 | 高 |
耐久性 | 接近无限 | 接近无限 | 104 ~ 105 | > 1012 | > 109 | > 1012 | > 105 |
保持性 | 断电丢失 | 断电丢失 | 断电稳定 | 断电稳定 | 断电稳定 | 断电稳定 | 断电稳定 |
比特数 | 1 bit | 1 bit | 1 ~ 2 bit | 5 ~ 11 bit | 1 bit | 1 bit | ~4 bit |
成本 | 高 | 中 | 低 | 低 | 低 | 低 | 低 |
国内外存算一体芯片/系统的若干工作
-
UCSB 2015:首次展示12 x 12的阵列
-
UMass 2017:128 x 64(8K)的阵列
-
UMich 2019:集成控制器的原型芯片
-
Stanford 2022:片上网络三百万器件
-
IBM 2023:多核并行的35M PCM器件
单阵列尺寸更大、系统集成度更高、芯片功能更完善,近十年间取得了快速的发展,部分技术正逐步从实验室向工业界过渡。
基于模拟器件的存算一体系统
存算一体系统需要多个层面的协同发展:
-
架构:支持存储与计算融合;并行和模拟计算;冗余设计
-
编译:高效映射计算任务到存储阵列中、优化并行化以及处理计算误差和容错性
-
算法:硬件感知训练算法
应用场景:
-
规模:目前多核CIM芯片集成器件数超过3500万
-
应用:模拟存算芯片在图像识别,语音处理、组合优化、科学计算等领域广泛应用
总结
-
物理计算:利用利用器件自身的物理特性作为计算的载体
-
器件优化:规模集成中间器件性能优化
-
系统属性:软硬协同,多学科交叉是当前新AI时代系统发展的趋势