Accelerating Performance of GPU-based Workloads Using CXL——论文泛读

最新推荐文章于 2024-09-28 17:29:44 发布

妙BOOK言

最新推荐文章于 2024-09-28 17:29:44 发布

阅读量413

点赞数 8

分类专栏：论文阅读文章标签：论文阅读 CXL

本文链接：https://blog.csdn.net/qq_36159989/article/details/136645943

版权

论文阅读专栏收录该内容

259 篇文章 12 订阅

订阅专栏

本文探讨了在支持CXL的多GPU系统中，通过提出一种调度感知的内存分配方法，有效缓解内存争用，降低数据传输开销65%，以优化高性能计算任务的性能。研究基于模拟环境，强调了现有内存分配方案对数据吞吐量的影响。

摘要由CSDN通过智能技术生成

FlexScience 2023 Paper CXL论文阅读笔记整理

问题

跨多GPU系统运行的高性能计算（HPC）工作负载，如科学模拟和深度学习，是内存和数据密集型的，依赖于主机内存来补充其有限的板载高带宽内存（HBM）。为了促进在慢速设备到主机PCIe互连之间更快的数据传输，这些工作负载通常将内存固定在主机系统上，但对同一节点的对等GPU上运行的工作负载的主机内存造成内存容量限制。（预留部分内存用于加快传输速度，但限制了内存可用容量）

计算快速链路（CXL）是一种新兴技术，它以缓存一致的方式以低延迟和高吞吐量透明地扩展可用的系统内存容量。虽然跨多GPU节点运行的工作负载可以利用这一点来分配和固定更多的内存，但由于CXL内存上的争用，使用传统的内存分配方案可能会对数据吞吐量产生不利影响。