自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

重新开始写博客

日常看论文、科研等分享

  • 博客(265)
  • 收藏
  • 关注

原创 论文阅读笔记整理(持续更新)

阅读论文,整理其目标、挑战、创新点、局限性

2024-01-22 15:36:22 1682 2

原创 CXL论文阅读笔记整理(持续更新)

阅读CXL相关论文,整理其目标、挑战、创新点、局限性

2023-12-19 13:36:01 2060

原创 分布式元数据论文阅读笔记整理(持续更新)

阅读分布式元数据论文,整理其目标、挑战、创新点、局限性

2023-12-19 13:21:17 1512

原创 Ethane: An Asymmetric File System for Disaggregated Persistent Memory——论文阅读

针对基于PM的分布式文件系统,现有方法存在3个问题:昂贵的跨节点交互、薄弱的单节点能力、昂贵的横向扩展性能。本文提出Ethane,基于分离式持久内存(DPM)的文件系统。包括3个技术:(1)采用非对称文件系统架构,拆分为控制平面FS(运行在CN,维护部分缓存视图)和数据平面FS(运行在MN,维护全局视图,提供共享空间)。(2)控制平面FS负责持久性、并发性和一致性,利用共享日志实现。将每个操作的oplog写入PM实现持久性;将文件系统操作转换为日志排序,处理并发性;在每个操作前回放共享日式实现一致性。

2024-07-25 11:28:07 543

原创 DRust: Language-Guided Distributed Shared Memory with Fine Granularity, Full Transparency...——泛读笔记

针对分布式共享内存(DSM)系统,现有方法受限于同步开销高、访问粒度粗。本文提出DRust,基于Rust的所有权模型,通过语言语义指导的轻量级一致性协议,将单机Rust程序转换为分布式版本。主要包括两个技术:(1)管理内存。构建越多个服务器的全局堆,堆中的每个对象有唯一的全局地址。在全局堆抽象上制定基于所有权的缓存一致性协议,利用所有权语义来消除显式缓存无效,修改时移动地址,自动使缓存服务无效。(2)支持编程的透明度。

2024-07-24 14:33:30 422

原创 FlexMem: Adaptive Page Profiling and Migration for Tiered Memory——论文泛读

针对分层内存的页面管理方法,现有方法受限于单一的内存分析方法、固定的页面降级速率、固定的温页面范围。本文提出FlexMem,包括3个技术:(1)结合了基于性能计数器和基于页面故障的分析方法。使用统一的升级间隔,使用两种方法分析热页面。当两种方法对页面识别结果不同时,对页面热度达成一致之前,不会立即降级。(2)根据容纳热页面的需要,动态决定降级的页面数量。根据快速内存中冷页面数量、页面升级失败的频率和最近页面升级的有效性动态调整降级速率。(3)根据页面升级为热页面的频率,动态决定温页面范围,防止不必要的降级。

2024-07-24 14:31:30 646

原创 PeRF: Preemption-enabled RDMA Framework——论文泛读

针对多租户场景RNIC争用导致的性能下降问题,由于RNIC的QP级轮询调度,导致:大消息应用影响小消息应用的性能,多QP应用影响单QP应用性能。本文提出支持抢占的RDMA框架PeRF,利用RNIC抢占机制来动态控制每个租户的RDMA资源利用率。通过使用特定动词,提示RNIC抢占式调度,类似于操作系统中的抢占式作业调度。在租户请求之间使用抢占,并弹性控制RNIC的数据包传输,对小消息或单个连接的应用更有益。

2024-07-23 13:51:42 751

原创 UniMem: Redesigning Disaggregated Memory within A Unified Local-Remote Memory Hierarchy——论文泛读

针对分离式内存的优化,现有基于缓存一致性的系统受限于:额外的地址转换;缓存抖动和缓存污染问题。本文提出UniMem,基于缓存一致性的DM系统。包括3个技术:(1)重新设计远程内存机制,将远程内存池直接暴露给CN的物理内存空间,消除间接层。(2)重新设计了本地缓存机制,类似S3FIFO。为频繁访问的页保留大部分缓存空间,在很少或没有重用的情况下迅速驱逐页面。保留了被驱逐块的地址,以检测重用的页面。(3)页面迁移机制,根据页面热度和热度碎片进行页面迁移。促进按进程批量迁移常用页面,以摊销页面迁移开销。

2024-07-23 13:50:00 860

原创 HydraRPC: RPC in the CXL Era——论文阅读

本文提出基于CXL优化RPC,现有基于消息传递的RPC面临:网络开销高,数据复制开销,可扩展性差。本文提出利用CXL HDM(主机管理设备内存)进行数据传输的HydraRPC。包括4个技术:(1)利用多机间共享的CXL HDM来避免昂贵的网络开销、内存复制和(反)序列化。(2)采用不可缓存的共享来绕过CPU缓存,而不是通用的load/store内存访问指令。(3)基于轮询的优化,使用SSE3的功率降低指令,降低CPU利用率。(4)滑动窗口协议,防止访问拥塞。

2024-07-22 15:23:14 1174

原创 ACCL+: an FPGA-Based Collective Engine for Distributed Applications——论文泛读

针对基于FPGA的通信库,现有方法不能支持多种传输协议、灵活性不足、可移植性不足。本文提出FPGA上的自适应集体通信库ACCL+。包括四个技术:(1)可跨不同平台,支持UDP、TCP以及RDMA,使FPGA应用程序能够启动FPGA到FPGA的直接集体通信。可以作为CPU应用程序的集体卸载引擎,将CPU从网络任务中解放。(2)提供了具有显式缓冲区分配的类MPI集体API和具有直接通道到通信层的流式集体API。

2024-07-19 14:44:41 795

原创 NOMAD: Non-Exclusive Memory Tiering via Transactional Page Migration——论文泛读

针对使用基于CXL的内存时,分层内存的页管理策略。现有方法将页从容量层迁移到性能层时,受限于同步处理页面错误的开销,迁移过程中性能显著下降。本文提出非独占内存分层,允许性能层的部分页在容量层有副本,以减轻内存抖动。提出了事务性页面迁移(TPM),在迁移过程中页面可以访问。在不从容量层取消页面映射的情况下启动页面内容复制,以便程序仍然可以访问迁移页面。将页面复制到性能层上的新页面后,检查该页面是否被修改。如果修改,则页面迁移无效,并稍后重试;

2024-07-19 14:39:53 621

原创 Managing Memory Tiers with CXL in Virtualized Environments——论文阅读

针对利用CXL进行内存分层,基于软件会消耗过多CPU且只能在页面粒度迁移,基于硬件受限于组合间内存争用和租户内LLC争用。本文提出软硬件结合的CXL分层系统 Memstrata,基于Intel®扁平内存模式进行软件层优化,在各种负载下提供了类似于本地DRAM的性能,能够将内存容量扩展1.5倍。使用两个技术:(1)识别冲突缓存行的页面,采用页面着色将其分配给同一个租户来消除租户间争用。

2024-07-18 11:26:14 835

原创 Optimizing Write Performance for Checkpointing to Parallel File Systems Using LSM-Trees——论文泛读

针对高性能计算系统的I/O性能,现有方法的写性能成为瓶颈。本文提出基于日志结构合并树的I/O库 LSMIO,使用LSM树作为写存储后端,在其上增加了FStream接口、ADIOS2接口, 实现比现有I/O库更高的写性能。

2024-07-17 10:56:27 362

原创 Application and user-specific data prefetching and parallel read algorithms for distributed...——论文泛读

针对分布式文件系统的读性能,如何实现更高效的缓存和预取。本文提出特定于应用程序和特定于用户的数据预取算法 AUSDPC,根据访问文件块的频率和时间排名的组合,预取数据并将其存储在分布式文件系统的多级缓存中。包括两个技术:(1)将缓存分为两个分区,用户缓存和应用程序缓存,以根据考虑用户和应用程序级访问计算的流行度值存储预取的数据。(2)引入了并行读取算法,可以从分布式文件系统中的多个缓存中同时读取数据。

2024-07-17 10:52:26 313

原创 Quantification and analysis of performance fluctuation in distributed file system——论文泛读

针对分布式文件系统的性能波动问题,受硬件、数据布局、网络、配置等影响,在运行不同应用时性能波动明显。本文针对ceph的性能波动进行测试,对配置进行调整,优化ceph性能。从以下方面进行分析:(1)依次分析应用层、网络层、软件层和物理层,以提高分布式文件系统性能测试的准确性。(2)分析工作负载和观察窗口。使用800秒的观察窗口和文件服务器工作负载在测试结果的可靠性和测试成本之间取得了平衡。(3)评估不同硬件对Ceph性能的影响。

2024-07-16 11:10:39 496

原创 Tarazu: An Adaptive End-to-end I/O Load-balancing Framework for Large-scale Parallel File...——论文泛读

针对大型分布式并行文件系统的I/O负载不均衡问题,面临工作负载多样性、不同文件条带模式等问题。本文提出Tarazu,使客户端透明地、自适应地写入一组I/O服务器,实现不同I/O大小下平衡的数据放置。核心思路是:分析应用I/O请求模式,预测I/O创建行为;统计OSS的信息,与预测的I/O行为结合找到I/O放置策略;拦截应用I/O创建请求,按照放置策略进行分配。包括两个技术:(1)从客户端和服务器收集有关应用程序存储要求以及存储服务器负载的实时信息,以平衡的方式将I/O请求映射到OST和OSS。

2024-07-16 11:08:13 697

原创 CFFS: A Persistent Memory File System for Contiguous File Allocation With Fine-Grained Metadata—论文泛读

针对PM上的文件系统,现有方法缺乏细粒度元数据管理,需要日志进行持久化;mmap导致的页错误开销高。本文提出CFFS(连续文件分配与细粒度元数据文件系统),包括两个技术:(1)高效的页面分配算法,使用基于贪婪的伙伴系统和非最近使用(NMRU)的隐式预分配,以减少文件碎片并增加碎片对齐。将PM分为多个组,通过列表Buddy Structure管理,根据分配时的提示决定是否预分配。(2)利用PM的字节可寻址设计细粒度元数据。

2024-07-15 11:06:43 784

原创 Fast and Low Overhead Metadata Operations for NVM-Based File System Using Slotted Paging——论文泛读

针对持久内存文件系统(PMFS)的优化,现有方法dentry没有使用结构管理,每次线性查找开销高,日志记录开销高。本文提出FLOMO,快速、低开销的元数据操作机制。包含3个技术:(1)采用了slotted-paging结构来重组dentry,以有效地执行插入和删除。(2)用文件名的哈希值作为key,在DRAM中为每个目录构建一个红黑树,以加快查找。(3)提出选择性日志记录,在slotted-paging中记录与dentry相关的更改,减轻了冗余的日志记录开销。

2024-07-14 22:41:51 616

原创 Address Scaling: Architectural Support for Fine-Grained Thread-Safe Metadata Management——泛读笔记

针对运行时监控工具如Valgrind中的Memcheck的优化,现有方法会为监视的每个字节的应用程序数据维护元数据,导致额外元数据访问开销、一致性开销。本文提出Address Scaling,核心思想是在同一缓存行中维护数据及其相应的元数据。在虚拟和物理地址之间引入了缩放地址,将数据及其相应的元数据连续存储,并映射到物理地址的同一缓存行中。

2024-07-12 11:21:11 383

原创 A Low-Latency Metadata Service for Geo-Distributed File Systems——论文泛读

针对部署在不同地理位置的分布式文件系统,现有方法没有针对地理距离造成的延迟进行优化。本文提出低延迟元数据服务LoLaMS,旨在减少服务调用延迟。核心思想是利用用户访问的局部性,对用户操作行为的分析,对访问延迟超过阈值的元数据进行动态子树划分和迁移,在附近的元数据服务器中处理更多的元数据服务调用,满足预期的延迟。

2024-07-12 11:15:23 424

原创 An Adaptive Metadata Management Scheme Based on Deep Reinforcement Learning for Large-Scale...——论文泛读

针对分布式元数据管理方法,本文提出基于深度强化学习的细粒度元数据管理方案AdaM。包括三个技术:(1)根据当前状态(访问模式、名称空间树、MDS节点分布),训练actor-critic网络,在服务器之间自动迁移热元数据节点。(2)自适应元数据缓存策略,动态结合服务器端和客户端管理缓存,以提高查询效率,降低网络开销。(3)分布式处理协议,称为基于MST的2PC,以保证分布式元数据事务的一致性。

2024-07-12 11:13:56 229

原创 Facilitating the Efficiency of Secure File Data and Metadata Deletion on SMR-based Ext4 File..——论文泛读

针对SMR场景的ext4的安全删除(多次重写已删除数据的无效存储)性能,现有方法将元数据、数据分类,导致安全删除时读合并写(RMW)过多。本文提出安全删除和SMR感知空间分配(SSSA)策略,以促进安全删除文件及其元数据,包括3个技术:(1)元数据重定向机制。将元数据和数据连续存储,以在安全删除期间减少读合并写(RMW)操作。(2)弹性保护屏障方案。在不同文件的相邻块之间插入空白轨道进行分段,缓解了写放大。(3)反碎片空间分配器。将多个小文件打包到同一个段,以降低保护屏障的开销,同时缓解段中的内部碎片。

2024-07-11 11:29:26 214

原创 MetaWBC: POSIX-Compliant Metadata Write-Back Caching for Distributed File System——论文泛读

针对并行的分布式文件系统,现有方法采用写回的数据缓存以提高性能,采用直写的元数据缓存以简化一致性。本文提出元数据写回缓存(MetaWBC)机制,一种客户端驱动的文件系统架构,允许应用程序在本地处理其元数据和数据操作。包括3个技术:(1)提出了内存文件系统(MemFS)作为元数据缓存。内存充足时,所有的数据和元数据都缓存在虚拟内存中。由内核守护进程线程定期检查并回收MemFS中的缓存数据。也可以设置MemFS使用内存的上限,当内存紧张或内存使用接近上限时,数据可以直接写入主后端文件系统。

2024-07-10 14:53:00 878

原创 CLMS: Configurable and Lightweight Metadata Service for Parallel File Systems on NVMe SSDs——论文泛读

针对基于NVMe SSD的并行文件系统(PFS)元数据,现有PFS基于本地文件系统构建MDS,但并行访问时受限于本地文件系统的锁争用,性能低。本文提出CLMS,包括两个创新点:(1)同时使用基于目录和基于哈希的元数据分发策略,在MDS间分发负载【但实际上没结合起来,是两个单独的策略,意义不大】(2)使用用户空间元数据服务设计,降低了I/O路径中的内存复制和序列化处理开销。

2024-07-10 14:51:34 356

原创 FileScale: Fast and Elastic Metadata Management for Distributed File Systems——论文泛读

针对文件系统元数据,如何保证可扩展性的同时保证性能。本文提出FileScale,基于HDFS的文件系统,用三层分布式体系结构取代了HDFS中的元数据管理,三层体系结构包括:路由层、分布式缓存层、分布式数据库系统(DDBMS)层,大多数请求都可以通过与DDBMS的异步、批处理交互来处理,并允许独立地弹性缩放体系结构中的每一层。

2024-07-09 10:37:59 418

原创 CSAL: the Next-Gen Local Disks for the Cloud——论文泛读

本文针对云本地磁盘,探讨利用QLC SSD的可能性,通过三次初步实验分析了主要的性能瓶颈:(1)QLC SSD采用粗粒度的逻辑到物理(L2P)映射(64KB),比传统NVMe SSD中的4KB L2P条目大得多,导致高设备级写入放大。(2)使用闪存转换层(FTL)管理QLC内部的地址映射,导致垃圾收集的NAND级写放大,因为不同寿命的数据混合在一起。本文提出CSAL,使用大约3GB的DRAM用于内存数据结构,使用HP-SSD作为写缓冲区,使用大容量分区命名空间(ZNS)QLC SSD进行持久化。

2024-07-08 11:18:07 647

原创 ScheMoE: An Extensible Mixture-of-Experts Distributed Training System with Tasks Scheduling——论文泛读v

针对模型训练的MoE层,现有方法受限于通信瓶颈和任务调度方法,在GPU集群上扩展性不佳。本文提出ScheMoE,包括3个创新点:(1)将操作模块化,包括数据压缩、集体通信和专家计算。(2)基于模块化操作,提出了一种自适应最优调度算法来处理通信和计算任务,以提高训练效率。(3)设计了新的A2A算法,即Pipe-A2A,对节点内通信和节点间通信进行流水线传输,同时利用节点内带宽和节点间带宽来提高通信效率。

2024-07-08 11:15:27 596

原创 Wormhole Filters: Caching Your Hash on Persistent Memory——泛读笔记

针对利用持久内存的近似成员关系查询(AMQ)数据结构(如Bloom过滤器),现有方法随机访问和顺序写入次数多,为了支持恢复开销高,不适用于持久内存。本文提出Wormhole Filters,设计了新数据结构距离指纹对和基于桶的虫洞哈希表,通过减少随机访问和顺序写入,减少了日志记录的数量,以适用于持久内存。

2024-07-05 11:21:20 689

原创 MTM: Rethinking Memory Profiling and Migration for Multi-Tiered Large Memory——论文泛读

针对多层大内存系统的页面管理,现有方法受限于内存分析开销高、页面迁移效率低、不支持大页的问题。本文提出MTM,应用程序透明的多层内存管理框架,包括3个技术:(1)将分析开销与分析机制联合。分析质量和开销可以根据空间和时间局部性的变化而成比例地分布,对于变化较大的内存区域,可以强制执行更多的页表条目(PTE)扫描或页面分析。(2)通用的页面迁移策略。基于内存分析建立所有层中所有内存区域的全局视图。提出快速升级和慢速降级策略:将热页直接提升到最高层,减少了数据在各层之间的移动;

2024-07-05 11:19:18 803

原创 ScaleCache: A Scalable Page Cache for Multiple Solid-State Drives——论文泛读

随着SSD数量的增加,Linux存储栈中的页面缓存会限制SSD的并行性,瓶颈在于XArray中锁开销和串行化的脏页flush操作。本文提出ScaleCache,用于提升SSD可扩展性,主要包括两个技术:(1)提出基于XArray的页面缓存并发数据结构(ccXArray),以实现对页面缓存的无锁并发访问和更新。(2)提出直接页面刷新(dflush),以并行和机会主义的方式将脏页推送到存储设备。

2024-07-04 11:25:06 441

原创 Halife: An Adaptive Flowlet-based Load Balancer with Fading Timeout in Data Center Networks——论文泛读

针对数据中心网络的负载均衡问题,现有基于flowlet的方法受限于FTV,难以同时适应不同负载。本文提出Halflife,它利用衰退的FTV,根据交换机转发的包的数量衰减FTV,从而在不同的工作负载下迅速重新路由传输。对长流自然地被分配较小的FTV,使它们更灵活地调度寻求更高的总吞吐量;短流会自动获得更大的FTV,避免无序问题;而且长流的FTV较小,可以快速移动到其他路径,从而减少拥塞。

2024-07-04 11:22:40 670

原创 TTLs Matter: Efficient Cache Sizing with TTL-Aware Miss Ratio Curves and Working Set Sizes——论文泛读

本文针对云环境中缓存大小调整工具的优化,如何在未命中率曲线(MRC)和工作集大小(WSS)算法中增加存活时间(TTL)信息。本文调整了Mattson、Olken和Shards算法来处理TTL,并扩展了HLL以适应过期对象的删除。进一步实现了高效的WSS估计和启用TTL的CounterStacks MRC生成算法。

2024-07-03 14:19:44 824

原创 DEX: Scalable Range Indexing on Disaggregated Memory——论文泛读

针对分离式内存环境下的可扩展索引,面临基本的缓存、无原则的卸载和过度不一致的问题。本文提出用于内存分解的可扩展B+树DEX,包括3个技术:(1)计算端逻辑分区:每个计算服务器在逻辑上复制一部分密钥,内存服务器仍然存储全局可寻址的共享空间。(2)轻量级缓存:利用应用程序级别的信息进行路径感知缓存,在缓存中保留从根节点到较低级别节点的频繁访问路径。父节点缓存后允许子节点缓存,父节点在其所有子节点被逐出后再逐出。(3)机会主义卸载:运行时跟踪内存服务器上的资源可用性,当完成时间可以最小化时,才会卸载索引操作。

2024-07-03 14:17:17 800

原创 Salus: Efficient Security Support for CXL-Expanded GPU Memory——论文泛读

针对使用CXL内存扩展GPU内存时,为了实现安全产生的相关流量。本文提出了一种新的安全模型,包括三个技术:(1)统一存储器的安全元数据,将安全元数据与数据的物理位置解耦,消除了在数据重新定位过程中的重新加密。(2)重组加密计数器块,在次要计数器之间共享主要计数器,从而减少流量,同时压缩访问频率较低的的计数器块。(3)在CXL到GPU映射中以位掩码格式跟踪脏信息,显著减少元数据访问和写回相关的流量。

2024-07-02 10:44:54 1026

原创 Rethinking Design Paradigm of Graph Processing System with a CXL-like Memory Semantic Fabric——论文泛读

如何在图处理系统中利用CXL优化性能。本文基于对共享内存模型的分析,设计了降低访问频率和将计算与RMA重叠的方法。随后在FPGA上实现了CXL-oF,并与现有图处理系统结合,实现性能提升。

2024-07-01 19:58:08 461

原创 ICCG: low-cost and efficient consistency with adaptive synchronization for metadata replication—论文泛读

针对由于元数据复制导致的I/O性能瓶颈,如何减少一致性和复制开销。本文提出ICCG,包括两个技术:(1)ICGDT,增量一致性保证的目录树同步。通过冲突状态树,判断元数据操作冲突的可能性,并由此决定使用最终一致性到强一致性的不同要求,从而降低一致性开销。(2)CCGRI,因果一致性保证副本索引同步。采用延迟复制,将数据同步更新转换为数据索引同步更新,直到副本数据被访问或广域链路空闲才真正同步数据。采用逻辑时间戳来建立I/O请求之间的因果依赖关系,并通过多版本段树解决没有依赖关系的请求所产生的冲突。

2024-06-26 11:11:33 491

原创 Rcmp: Reconstructing RDMA-Based Memory Disaggregation via CXL——论文阅读

针对RDMA和CXL结合的内存分解。本文提出基于RDMA和CXL的内存池Rcmp,通过CXL提高了基于RDMA的系统的性能,并利用RDMA克服了CXL的距离限制。包括4个创新点:(1)基于全局页面的内存空间管理,支持细粒度的数据访问,避免IO放大。(2)使用不同缓存区结构避免通信阻塞,机架内访问使用环形缓存区,机架间访问使用双层缓冲区,第一级存储已完成的访问避免阻塞,第二级使用环形缓存区,执行完时将请求添加到第一级缓冲区。

2024-06-19 11:30:36 1119 1

原创 High Performance Design for HDFS with Byte-Addressability of NVM and RDMA——论文泛读

针对利用NVM优化HDFS,本文提出NVFS(NVM和RDMA感知HDFS),以利用NVM的字节寻址能力进行基于RDMA的通信。包括四个技术:(1)从NVM分配内存用于RDMA通信,减少了计算和I/O的内存争用。(2)重新设计HDFS存储体系结构,以利用NVM的内存语义进行I/O操作。(3)在底层文件系统中仅针对作业输出和预写日志(WAL)使用NVM来加速Spark和HBase。(4)使用NVFS作为突发缓冲层的增强功能,用于在并行文件系统(如Lustre)上运行Spark作业。

2024-06-17 10:57:22 798

原创 NOVA: A Log-structured File System for Hybrid Volatile/Non-volatile Main Memories——论文泛读

针对混合易失性/非易失性主存储器的环境,如何设计高性能、保证一致性的文件系统。本文提出NOVA,扩展了日志结构文件系统的思想。包括3个技术:(1)为每个inode维护单独的日志,以提高并发性。利用NVMM随机访问,将日志存储为链表,不需要在内存中连续,使用对日志尾部指针的原子更新来提供原子日志附加。对于跨多个inode的操作,NOVA使用轻量级日志记录。(2)将文件数据存储在日志之外,提高恢复速度,同时降低垃圾回收成本,在页面过时时立即回收,并允许NOVA即使在文件系统几乎满了的情况下也能保持良好的性能。

2024-06-14 10:15:16 990

原创 Polaris: Enhancing CXL-based Memory Expanders with Memory-side Prefetching——论文泛读

针对CXL内存的预取,本文提出Polaris,将硬件预取器集成到CXL内存控制器芯片中。在CXL中增加额外缓存区,将预取数据存入缓存区中,预取命中时降低CXL内存访问延迟。支持将预取结果主动推送到CPU的LLC,进一步降低延迟。优势:(1)在硬件修改,兼容现有数据中心服务器;(2)避免预取污染CPU缓存,具有更大预取范围;(3)利用设备端DRAM带宽进行预取;(4)可以利用硬件性能实现更高预取精度。

2024-06-12 14:58:35 695

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除