Logical Memory Pools: Flexible and Local Disaggregated Memory——论文泛读

HotNets 2023 Paper CXL论文阅读笔记整理

问题

分离式内存将内存移动到可从多个服务器访问的池中,提高了内存利用率,并降低了数据中心内存的所有权成本[2,18,38,39,43,45]。先前工作大部分集中在软件分离式内存,通过软件发布IO将数据传输到内存池或从内存池传输数据(例如,使用RDMA)。

计算快速链路(CXL)可以用硬件实现内存分解,允许主机通过PCIe总线连接内存,处理器可以直接访问此类内存。硬件分离式内存比软件更快,load/store更轻,延迟更低,并且可以利用处理器机制来隐藏内存延迟,如流水线、无序、推测执行、预取[17,27]。

当前CXL内存分解建议[8,27,29]基于物理内存池(图1a),内存池在物理上与每个服务器分离。但物理内存池有四个主要缺点:

  • 需要内存池硬件(电源、主板、CPU、自定义ASIC或FPGA)、机架中的物理空间以及交换机上连接池的结构端口,会产生额外的成本。

  • 物理池会带来性能损失,对池的内存访问比本地内存慢3-10倍[27,30,44]。

  • 物理池没有用于近内存计算的CPU、GPU或加速器。

  • 物理池规定了本地内存与池内存的固定比例,一旦部署系统,这个比例就很难调整,因为需要在服务器和池之间物理移动内存。

本文方法

本文提出了逻辑内存池,图1b,利用CXL技术的分离式内存架构。关键思想是在每个服务器中分割出部分本地内存来创建内存池,而不是使用与服务器分离的物理内存池。在逻辑上将每个服务器的内存划分为私有和共享区域,其中所有共享区域的并集构成了分离式内存。与物理池相比,逻辑池提供了显著的优势,即更低的成本、无需额外硬件的近内存计算、指定内存是否为内存池一部分的灵活性。

实验结果表明,逻辑池提供了更高的分离式内存带宽,在固定的总内存下可以容纳更广泛的工作负载。

实验

实验环境:使用带有Intel Xeon Gold 5120 CPU的双插槽服务器,每个CPU有14个核心,固定频率为2.2Ghz,192GB的DRAM,每个NUMA节点有96GB,节点通过两个双向UPI链路连接[20]。

数据集:微基准测试

实验对比:带宽

总结

利用CXL实现分离式内存,本文提出逻辑内存池,在每个服务器中分割出部分本地内存来创建内存池,而不是使用与服务器分离的物理内存池。在逻辑上将每个服务器的内存划分为私有和共享区域,其中所有共享区域的并集构成了分离式内存。

局限性:但这种方法丢失了CXL扩展内存的优势。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

妙BOOK言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值