- 题目:An LPDDR-based CXL-PNM Platform for TCO-efficient Inference of Transformer-based Large Language Models
- 会议:HPCA
- 时间:2024
- 研究机构:三星
本篇论文的主要贡献:
CXL-PNM包含了3部分
- LPDDR-based CXL memory architecture
- CXL-PNM controller architecture integrated with an LLM inference accelerator
- software stack
基于CXL的近存计算平台,LPDDR5X可以达到512GB容量和1.1TBps带宽,实现了一个LLM推理加速器,利用CXL来客服HBM-PIM和AxDIMM等其他技术的缺点,同时实现了CXL-PNM软件栈。
- 题目:Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture
- 会议:ISCA
- 时间:2024
- 研究机构:清华
为什么要hybrid bonding
AI算法中的Clustering Similarity Effect (CSE)值得更好的挖掘,但CSE在现有的2D / 2.5D DRAM访问时存在局限性,这是因为受限的I/O数量以及memory interleaving,但如果是在3D架构,如hybrid bonding DRAM,因为I/O并行度更高,而且不用interleaving,聚类的效率更高
挑战是什么?
- 聚类时全局的搜索代价高
- 数据相似性没有被现有的稀疏引擎利用
- 负载不平衡的问题要解决
本篇论文的主要贡献: 基于hybrid bonding DRAM设计的硬件加速器架构,实现相似性检测,减少冗余计算
搭建了一个模拟器,17nm hybrid bonding DRAM + 12nm逻辑芯片
3D hybrid bonding
逻辑芯片上面堆叠DRAM,中间插入铜柱做互联,集成密度高(110,000/mm2 with 3um pitch)
本篇论文是低频I/O设计,DRAM存储体数据通过铜线连接直接与逻辑单元接口,无需异步phy,以降低寄生电阻,提高能效(0.88 pJ/bit)