论文阅读
文章平均质量分 87
阅读论文,分析其目标、挑战、创新点、局限性
妙BOOK言
中山大学,计算机博士在读
展开
-
A CXL-Powered Database System: Opportunities and Challenges——论文阅读
本文提出了将CXL用于数据库系统的思路,用于解决以下4个问题。(1)缓冲池管理:构建混合缓冲池,动态数据页面分配,细粒度内存共享实现多写一致性。(2)内存管理:弹性混合缓冲池,优化远近内存分配,冷热数据分层。(3)快速数据恢复:双重检查点机制,同步共享内存中的脏页,使用CXL和持久内存强制提交。(4)索引优化:B+树节点内存分配,数据修改时内存分配,数据结果修改时使用CXL管理冲突。原创 2024-10-10 10:58:52 · 504 阅读 · 0 评论 -
Breaking Barriers: Expanding GPU Memory with Sub-Two Digit Nanosecond Latency CXL Controller——论文泛读
本文针对扩展GPU内存的问题,提出基于CXL的扩展方案。定制化设计了CXL控制器,运行GPU通过该控制器连接DRAM/SSD,实现约80ns的往返延迟。提出推测读取(在CXL控制器检测目标地址实现预取,监控流量避免预取引起过多负载)和确定性存储(当写密集或CXL内存成为瓶颈,在GPU内存临时存储数据随后写入CXL内存)策略。原创 2024-10-09 14:01:24 · 608 阅读 · 0 评论 -
Disaggregating Persistent Memory and Controlling Them Remotely: An Exploration of Passive...——论文阅读
对pDPM架构的定义包括两个概念:将PM与计算服务器分离到基于PM的存储池中,并消除这些分离的PM节点(DN)的处理需求。针对基于PM的分离式内存系统,现有KV存储设计不适合新系统架构。本文提出Clover,数据存储在DN中,元数据存储在MS中,CN使用单向RDMA访问DN进行数据操作,使用双向RDMA访问MS,MS执行元数据和控制操作。包括3个技术:(1)设计无锁、异地更新的数据平面,在没有高写争用的情况下实现了1/2 RTT的读/写性能,利用地址缓存加快查找速度。原创 2024-09-05 16:24:10 · 1032 阅读 · 0 评论 -
FUSEE: A Fully Memory-Disaggregated Key-Value Store——论文阅读
针对分离式内存系统中,KV存储的元数据可扩展性差的问题。作者提出将元数据分离到每个内存节点上,并在内存节点间复制元数据信息。提出四个优化点:(1)客户端为中心的复制协议SNAPSHOT,在不序列化的同时解决写冲突,在多个副本上更新最后判断顺序解决冲突;(2)两级内存管理,将内存管理分为轻计算粗粒度管理和重计算细粒度管理,分别由内存节点和客户端管理;(3)嵌入式操作日志,将日志嵌入到KV对中,减少日志记录开销,增加双向链表维护日志顺序。原创 2024-09-04 14:45:47 · 1002 阅读 · 0 评论 -
StreamCache: Revisiting Page Cache for File Scanning on Fast Storage Devices——论文泛读
针对页面缓存的缓冲I/O进行优化,现有方法可扩展性较差,后台回写会显著影响前台I/O性能。本文提出了StreamCache,用于快速存储设备上文件扫描的页面缓存管理系统。包括3个技术:(1)使用轻量级的流跟踪方法,为每个打开的文件维护一个流跟踪树,并保留一个流指针来降低流跟踪开销,用于页面回写和逐出。(2)使用基于流的页面回收方法。利用流跟踪快速定位脏页,利用脏页的指针而无需获取自旋锁。(3)使用两层内存管理方法。系统级内存池,在每个核心的双向链表中维护零阶空闲页面。原创 2024-08-29 11:18:54 · 1107 阅读 · 0 评论 -
Beaver: Practical Partial Snapshots for Distributed Cloud Services——论文泛读
针对公有云环境中实现分布式快照,现有方法需要所有节点参与快照协议,但云服务中由于客户端节点不可控,难以实现因果一致性快照。本文提出Beaver,实现部分快照。利用现有云服务中的软件负载均衡器(SLB),在转发请求时标记快照传入消息,确保系统识别快照顺序。在获取快照后,通过乐观网关标记(OGM)识别快照因果一致的充分条件,若满足则得到快照,若不满足则重试快照。原创 2024-08-28 10:41:49 · 454 阅读 · 0 评论 -
Optimizing File Systems on Heterogeneous Memory by Integrating DRAM Cache with Virtual ...——论文阅读
针对异构内存的场景,现有的基于DRAM缓存(额外数据复制开销)和基于DAX的方法(数据同步和迁移开销)性能受限。本文提出FLAC,将DRAM缓存与操作系统的虚拟内存管理集成。包括两个技术:(1)零拷贝缓存。使用异构页表将异构内存统一到同一级别,根据页面状态(即缓存或驱逐)动态映射到DRAM或PM上的物理页面。设计了页面附加机制,通过强制写时复制(COW)在源地址和目标地址之间映射页面。(2)并行优化缓存管理。两阶段刷新,一阶段加锁将将脏页附加到缓冲区,二阶段无锁同步。原创 2024-08-27 15:40:22 · 962 阅读 · 0 评论 -
AStore: Uniformed Adaptive Learned Index and Cache for RDMA-Enabled Key-Value Store——论文泛读
针对客户端和服务端分离的分布式键值存储系统,传统方法利用传统索引结构或缓存,但受限于服务端CPU争用。本文提出AStore,采用客户端-服务端框架,利用RDMA、本地缓存索引、自适应学习索引模型。包括以下技术:(1)在客户端和服务端分别采用自适应学习索引模型,用于处理静态(读取)和动态工作负载(插入、更新、删除)。(2)对叶子节点的模型使用细粒度的版本控制,降低客户端和服务端的同步频率。(3)利用缓存显著降低模型再训练的频率。原创 2024-08-26 11:07:57 · 730 阅读 · 0 评论 -
Revisiting PM-Based B+-Tree With Persistent CPU Cache——论文泛读
针对DRAM和PM结合的场景,由于DRAM中缓存无法持久化,必须同步刷新到PM中,新推出的eDAR功能,该功能保证CPU缓存可以在崩溃后刷新到PM中。本文利用eDAR,提出了NBTree,无锁、PM友好的B+树,以提供高可扩展性和低PM开销。包括两个技术:(1)高可扩展性,提出无锁并发控制协议。对于叶节点操作,采用日志结构的插入和原地更新/删除,结合CAS原语,支持无锁访问。(2)减少PM开销,将叶节点的元数据和键值对解耦,元数据与内部节点一起存储在DRAM中,键值层存储在PM。原创 2024-08-23 14:21:42 · 833 阅读 · 0 评论 -
Optimizing Resource Allocation in Hyperscale Datacenters: Scalability, Usability, and ...——论文泛读
针对大规模场景中的资源分配的优化问题,可以采用混合整数规划(MIP)解决,但受限于可用性差、可扩展性差。本文提出资源分配框架Rebalancer。为了可扩展性,将模型表示为有向无环图(DAG),将模型大小从O(|O|×|B|)减小到O(|O|+|B|),同时优化局部搜索更有效地求解。为了可用性,利用直观的API支持声明性模型规范,自动将高级规范转换为图形表示,以实现高效处理。原创 2024-08-09 10:29:46 · 734 阅读 · 0 评论 -
LPCA: Learned MRC Profiling based Cache Allocation for File Storage Systems——论文泛读
针对文件存储系统的缓存优化,现有方法不能适应非LRU算法,也不能适用于分层缓存,例如dentry缓存、inode缓存、页面缓存和映射表缓存。本文提出基于学习MRC分析的FSS缓存分配(LPCA),核心是分析访问的数据流特征,利用机器学习方法计算MRC,并进行缓存分配。原创 2024-08-08 10:30:19 · 888 阅读 · 0 评论 -
On Stacking a Persistent Memory File System on Legacy File Systems——论文泛读
针对同时使用NVMM和块存储的文件系统,使用单个文件系统管理所有空间有局限性:难以扩展到多种块设备类型,系统复杂性,部署开销。本文提出可堆叠的持久内存文件系统(SPFS),部署在块设备文件系统之上,通过NVMM吸收频繁的小同步写入来提高I/O性能,同时利用底层对磁盘优化文件系统的VFS缓存进行大型或非同步写入,只管理NVMM而不管理磁盘或VFS缓存。原创 2024-08-01 14:12:43 · 878 阅读 · 0 评论 -
Enabling High-Performance and Secure Userspace NVM File Systems with the Trio Architecture——论文泛读
针对NVM上文件系统无法同时实现利用字节寻址和安全保证。本文提出Trio,一种用户空间NVM文件系统架构,同时实现:直接访问,无特权私人定制,元数据完整性。核心思想是,文件系统可以分为核心状态(索引节点、数据页)和辅助状态(索引节点、数据页),辅助状态由核心状态决定,并可以重建,因此将文件系统状态分离为共享核心状态和私有辅助状态。包括3个组件:(1)每个应用程序可以定制化设计应用程序链接库文件系统(LibFS),直接访问NVM,并使用其私有辅助状态执行无特权的私有定制。原创 2024-08-01 14:10:41 · 714 阅读 · 0 评论 -
A Survey of Non-Volatile Main Memory File Systems——论文泛读
对现有NVMM上的文件系统进行总结,现有方法主要从4个方面进行优化:降低软件开销(缩短IO栈、NVMM感知缓存、使用用户级文件系统、构建NVMM友好索引)、优化扩展性(细粒度锁、高并发索引结构)、优化崩溃一致性(日志、写时复制)、优化跨硬件存储系统(NVMM作为caceh、数据放置和迁移)。原创 2024-07-31 14:09:40 · 275 阅读 · 0 评论 -
UnifyFS: A User-level Shared File System for Unified Access to Distributed Local Storage——论文泛读
针对HPC系统的优化,现有系统受限于共享并行文件系统(PFS)的争用和一致性语义,导致I/O瓶颈。本文提出UnifyFS,一个临时用户级文件系统,它聚合了HPC系统上可用的NLS层,并使它们在统一的命名空间下可供应用程序使用。包括3个技术:(1)采用透明的I/O拦截,与常用的HPC I/O库兼容。(2)支持主要的HPC I/O工作负载,并针对突发、批量同步I/O模式进行了优化。(3)支持可定制系统语义,例如放宽一致性和权限检查,以换取高性能。原创 2024-07-31 14:07:36 · 809 阅读 · 0 评论 -
ExtMEM: Enabling Application-Aware Virtual Memory Management for Data-Intensive Applications——论文泛读
针对内存管理问题,本文提出了EXTMEM,为用户空间中的特定应用程序内存管理定制的多功能框架,将内存管理策略和分页机制提升到用户空间,同时维护安全性和隔离性。基于用户级页面错误处理、内核信号和向上调用,与Linux集成且开销类似于内核内分页,并保证多线程下高性能。便于开发人员由于:开发和测试内存管理器,部署定制的内存管理器,获得对应用程序工作内存的控制和可观察性。原创 2024-07-30 11:26:18 · 374 阅读 · 1 评论 -
ScalaCache: Scalable User-Space Page Cache Management with Software-Hardware Coordination——论文泛读
针对用户空间缓存管理进行优化,现有方法受限于CPU开销高、通信成本高和垃圾回收干扰。本文提出ScalaCache,软硬件协调的可扩展用户空间页面缓存。包括4个技术:(1)减少CPU开销,将缓存管理卸载到计算存储驱动器(CSD)中,并合并缓存和闪存固件中的间接层(缓存索引和SSD FTL),以简化冗余地址转换。(2)提高可扩展性,在CSD中构建了无锁资源管理框架,允许多个内核同时管理缓存空间。聚合了多个CSD的计算能力。(3)减轻通信成本,允许应用程序将缓存管理器集成到CSD中,消除缓存管理器和SSD通信。原创 2024-07-30 11:24:25 · 780 阅读 · 1 评论 -
FastCommit: resource-efficient, performant and cost-effective file system journaling——泛读笔记
针对Ext4的日志机制JBD2,在提交过程会产生高字节开销和I/O开销。本文提出FASTCOMMIT,用于Ext4的混合日志记录方法,短期维护逻辑日志,定期写入物理日志。包括3个技术:(1)紧凑型日志记录,减少字节开销,将许多文件系统更新打包放在一个磁盘块内。(2)选择性刷新,减少IO开销,将适合单个块的日志持久写入底层存储介质,避免缓存刷新命令。原创 2024-07-29 14:15:57 · 878 阅读 · 0 评论 -
FBMM: Making Memory Management Extensible With Filesystems——论文泛读
针对适应新内存硬件的内存管理系统,原始方法适应新硬件需要大量内核程序的修改。本文提出基于文件的内存管理(FBMM),使用Linux虚拟文件系统(VFS)提供的内存管理回调来编写内存管理器,将其独立为内存管理文件系统(MFS),通过在MFS的装载目录中创建和映射文件来分配内存,并通过删除文件来释放内存。通过拦截内存管理系统调用并转换为MFS中的文件系统操作,对应用程序透明。也支持应用程序在MFS的装载目录中手动创建和映射文件,以提供特定内存区域所需的功能。原创 2024-07-29 14:12:23 · 442 阅读 · 0 评论 -
Ethane: An Asymmetric File System for Disaggregated Persistent Memory——论文阅读
针对基于PM的分布式文件系统,现有方法存在3个问题:昂贵的跨节点交互、薄弱的单节点能力、昂贵的横向扩展性能。本文提出Ethane,基于分离式持久内存(DPM)的文件系统。包括3个技术:(1)采用非对称文件系统架构,拆分为控制平面FS(运行在CN,维护部分缓存视图)和数据平面FS(运行在MN,维护全局视图,提供共享空间)。(2)控制平面FS负责持久性、并发性和一致性,利用共享日志实现。将每个操作的oplog写入PM实现持久性;将文件系统操作转换为日志排序,处理并发性;在每个操作前回放共享日式实现一致性。原创 2024-07-25 11:28:07 · 930 阅读 · 1 评论 -
DRust: Language-Guided Distributed Shared Memory with Fine Granularity, Full Transparency...——泛读笔记
针对分布式共享内存(DSM)系统,现有方法受限于同步开销高、访问粒度粗。本文提出DRust,基于Rust的所有权模型,通过语言语义指导的轻量级一致性协议,将单机Rust程序转换为分布式版本。主要包括两个技术:(1)管理内存。构建越多个服务器的全局堆,堆中的每个对象有唯一的全局地址。在全局堆抽象上制定基于所有权的缓存一致性协议,利用所有权语义来消除显式缓存无效,修改时移动地址,自动使缓存服务无效。(2)支持编程的透明度。原创 2024-07-24 14:33:30 · 652 阅读 · 0 评论 -
FlexMem: Adaptive Page Profiling and Migration for Tiered Memory——论文泛读
针对分层内存的页面管理方法,现有方法受限于单一的内存分析方法、固定的页面降级速率、固定的温页面范围。本文提出FlexMem,包括3个技术:(1)结合了基于性能计数器和基于页面故障的分析方法。使用统一的升级间隔,使用两种方法分析热页面。当两种方法对页面识别结果不同时,对页面热度达成一致之前,不会立即降级。(2)根据容纳热页面的需要,动态决定降级的页面数量。根据快速内存中冷页面数量、页面升级失败的频率和最近页面升级的有效性动态调整降级速率。(3)根据页面升级为热页面的频率,动态决定温页面范围,防止不必要的降级。原创 2024-07-24 14:31:30 · 906 阅读 · 0 评论 -
PeRF: Preemption-enabled RDMA Framework——论文泛读
针对多租户场景RNIC争用导致的性能下降问题,由于RNIC的QP级轮询调度,导致:大消息应用影响小消息应用的性能,多QP应用影响单QP应用性能。本文提出支持抢占的RDMA框架PeRF,利用RNIC抢占机制来动态控制每个租户的RDMA资源利用率。通过使用特定动词,提示RNIC抢占式调度,类似于操作系统中的抢占式作业调度。在租户请求之间使用抢占,并弹性控制RNIC的数据包传输,对小消息或单个连接的应用更有益。原创 2024-07-23 13:51:42 · 823 阅读 · 0 评论 -
UniMem: Redesigning Disaggregated Memory within A Unified Local-Remote Memory Hierarchy——论文泛读
针对分离式内存的优化,现有基于缓存一致性的系统受限于:额外的地址转换;缓存抖动和缓存污染问题。本文提出UniMem,基于缓存一致性的DM系统。包括3个技术:(1)重新设计远程内存机制,将远程内存池直接暴露给CN的物理内存空间,消除间接层。(2)重新设计了本地缓存机制,类似S3FIFO。为频繁访问的页保留大部分缓存空间,在很少或没有重用的情况下迅速驱逐页面。保留了被驱逐块的地址,以检测重用的页面。(3)页面迁移机制,根据页面热度和热度碎片进行页面迁移。促进按进程批量迁移常用页面,以摊销页面迁移开销。原创 2024-07-23 13:50:00 · 925 阅读 · 0 评论 -
HydraRPC: RPC in the CXL Era——论文阅读
本文提出基于CXL优化RPC,现有基于消息传递的RPC面临:网络开销高,数据复制开销,可扩展性差。本文提出利用CXL HDM(主机管理设备内存)进行数据传输的HydraRPC。包括4个技术:(1)利用多机间共享的CXL HDM来避免昂贵的网络开销、内存复制和(反)序列化。(2)采用不可缓存的共享来绕过CPU缓存,而不是通用的load/store内存访问指令。(3)基于轮询的优化,使用SSE3的功率降低指令,降低CPU利用率。(4)滑动窗口协议,防止访问拥塞。原创 2024-07-22 15:23:14 · 1342 阅读 · 0 评论 -
ACCL+: an FPGA-Based Collective Engine for Distributed Applications——论文泛读
针对基于FPGA的通信库,现有方法不能支持多种传输协议、灵活性不足、可移植性不足。本文提出FPGA上的自适应集体通信库ACCL+。包括四个技术:(1)可跨不同平台,支持UDP、TCP以及RDMA,使FPGA应用程序能够启动FPGA到FPGA的直接集体通信。可以作为CPU应用程序的集体卸载引擎,将CPU从网络任务中解放。(2)提供了具有显式缓冲区分配的类MPI集体API和具有直接通道到通信层的流式集体API。原创 2024-07-19 14:44:41 · 900 阅读 · 0 评论 -
NOMAD: Non-Exclusive Memory Tiering via Transactional Page Migration——论文泛读
针对使用基于CXL的内存时,分层内存的页管理策略。现有方法将页从容量层迁移到性能层时,受限于同步处理页面错误的开销,迁移过程中性能显著下降。本文提出非独占内存分层,允许性能层的部分页在容量层有副本,以减轻内存抖动。提出了事务性页面迁移(TPM),在迁移过程中页面可以访问。在不从容量层取消页面映射的情况下启动页面内容复制,以便程序仍然可以访问迁移页面。将页面复制到性能层上的新页面后,检查该页面是否被修改。如果修改,则页面迁移无效,并稍后重试;原创 2024-07-19 14:39:53 · 718 阅读 · 0 评论 -
Managing Memory Tiers with CXL in Virtualized Environments——论文阅读
针对利用CXL进行内存分层,基于软件会消耗过多CPU且只能在页面粒度迁移,基于硬件受限于组合间内存争用和租户内LLC争用。本文提出软硬件结合的CXL分层系统 Memstrata,基于Intel®扁平内存模式进行软件层优化,在各种负载下提供了类似于本地DRAM的性能,能够将内存容量扩展1.5倍。使用两个技术:(1)识别冲突缓存行的页面,采用页面着色将其分配给同一个租户来消除租户间争用。原创 2024-07-18 11:26:14 · 974 阅读 · 0 评论 -
Optimizing Write Performance for Checkpointing to Parallel File Systems Using LSM-Trees——论文泛读
针对高性能计算系统的I/O性能,现有方法的写性能成为瓶颈。本文提出基于日志结构合并树的I/O库 LSMIO,使用LSM树作为写存储后端,在其上增加了FStream接口、ADIOS2接口, 实现比现有I/O库更高的写性能。原创 2024-07-17 10:56:27 · 403 阅读 · 0 评论 -
Application and user-specific data prefetching and parallel read algorithms for distributed...——论文泛读
针对分布式文件系统的读性能,如何实现更高效的缓存和预取。本文提出特定于应用程序和特定于用户的数据预取算法 AUSDPC,根据访问文件块的频率和时间排名的组合,预取数据并将其存储在分布式文件系统的多级缓存中。包括两个技术:(1)将缓存分为两个分区,用户缓存和应用程序缓存,以根据考虑用户和应用程序级访问计算的流行度值存储预取的数据。(2)引入了并行读取算法,可以从分布式文件系统中的多个缓存中同时读取数据。原创 2024-07-17 10:52:26 · 344 阅读 · 0 评论 -
Quantification and analysis of performance fluctuation in distributed file system——论文泛读
针对分布式文件系统的性能波动问题,受硬件、数据布局、网络、配置等影响,在运行不同应用时性能波动明显。本文针对ceph的性能波动进行测试,对配置进行调整,优化ceph性能。从以下方面进行分析:(1)依次分析应用层、网络层、软件层和物理层,以提高分布式文件系统性能测试的准确性。(2)分析工作负载和观察窗口。使用800秒的观察窗口和文件服务器工作负载在测试结果的可靠性和测试成本之间取得了平衡。(3)评估不同硬件对Ceph性能的影响。原创 2024-07-16 11:10:39 · 519 阅读 · 1 评论 -
Tarazu: An Adaptive End-to-end I/O Load-balancing Framework for Large-scale Parallel File...——论文泛读
针对大型分布式并行文件系统的I/O负载不均衡问题,面临工作负载多样性、不同文件条带模式等问题。本文提出Tarazu,使客户端透明地、自适应地写入一组I/O服务器,实现不同I/O大小下平衡的数据放置。核心思路是:分析应用I/O请求模式,预测I/O创建行为;统计OSS的信息,与预测的I/O行为结合找到I/O放置策略;拦截应用I/O创建请求,按照放置策略进行分配。包括两个技术:(1)从客户端和服务器收集有关应用程序存储要求以及存储服务器负载的实时信息,以平衡的方式将I/O请求映射到OST和OSS。原创 2024-07-16 11:08:13 · 718 阅读 · 0 评论 -
CFFS: A Persistent Memory File System for Contiguous File Allocation With Fine-Grained Metadata—论文泛读
针对PM上的文件系统,现有方法缺乏细粒度元数据管理,需要日志进行持久化;mmap导致的页错误开销高。本文提出CFFS(连续文件分配与细粒度元数据文件系统),包括两个技术:(1)高效的页面分配算法,使用基于贪婪的伙伴系统和非最近使用(NMRU)的隐式预分配,以减少文件碎片并增加碎片对齐。将PM分为多个组,通过列表Buddy Structure管理,根据分配时的提示决定是否预分配。(2)利用PM的字节可寻址设计细粒度元数据。原创 2024-07-15 11:06:43 · 813 阅读 · 1 评论 -
Fast and Low Overhead Metadata Operations for NVM-Based File System Using Slotted Paging——论文泛读
针对持久内存文件系统(PMFS)的优化,现有方法dentry没有使用结构管理,每次线性查找开销高,日志记录开销高。本文提出FLOMO,快速、低开销的元数据操作机制。包含3个技术:(1)采用了slotted-paging结构来重组dentry,以有效地执行插入和删除。(2)用文件名的哈希值作为key,在DRAM中为每个目录构建一个红黑树,以加快查找。(3)提出选择性日志记录,在slotted-paging中记录与dentry相关的更改,减轻了冗余的日志记录开销。原创 2024-07-14 22:41:51 · 636 阅读 · 0 评论 -
Address Scaling: Architectural Support for Fine-Grained Thread-Safe Metadata Management——泛读笔记
针对运行时监控工具如Valgrind中的Memcheck的优化,现有方法会为监视的每个字节的应用程序数据维护元数据,导致额外元数据访问开销、一致性开销。本文提出Address Scaling,核心思想是在同一缓存行中维护数据及其相应的元数据。在虚拟和物理地址之间引入了缩放地址,将数据及其相应的元数据连续存储,并映射到物理地址的同一缓存行中。原创 2024-07-12 11:21:11 · 414 阅读 · 0 评论 -
A Low-Latency Metadata Service for Geo-Distributed File Systems——论文泛读
针对部署在不同地理位置的分布式文件系统,现有方法没有针对地理距离造成的延迟进行优化。本文提出低延迟元数据服务LoLaMS,旨在减少服务调用延迟。核心思想是利用用户访问的局部性,对用户操作行为的分析,对访问延迟超过阈值的元数据进行动态子树划分和迁移,在附近的元数据服务器中处理更多的元数据服务调用,满足预期的延迟。原创 2024-07-12 11:15:23 · 446 阅读 · 0 评论 -
An Adaptive Metadata Management Scheme Based on Deep Reinforcement Learning for Large-Scale...——论文泛读
针对分布式元数据管理方法,本文提出基于深度强化学习的细粒度元数据管理方案AdaM。包括三个技术:(1)根据当前状态(访问模式、名称空间树、MDS节点分布),训练actor-critic网络,在服务器之间自动迁移热元数据节点。(2)自适应元数据缓存策略,动态结合服务器端和客户端管理缓存,以提高查询效率,降低网络开销。(3)分布式处理协议,称为基于MST的2PC,以保证分布式元数据事务的一致性。原创 2024-07-12 11:13:56 · 264 阅读 · 0 评论 -
Facilitating the Efficiency of Secure File Data and Metadata Deletion on SMR-based Ext4 File..——论文泛读
针对SMR场景的ext4的安全删除(多次重写已删除数据的无效存储)性能,现有方法将元数据、数据分类,导致安全删除时读合并写(RMW)过多。本文提出安全删除和SMR感知空间分配(SSSA)策略,以促进安全删除文件及其元数据,包括3个技术:(1)元数据重定向机制。将元数据和数据连续存储,以在安全删除期间减少读合并写(RMW)操作。(2)弹性保护屏障方案。在不同文件的相邻块之间插入空白轨道进行分段,缓解了写放大。(3)反碎片空间分配器。将多个小文件打包到同一个段,以降低保护屏障的开销,同时缓解段中的内部碎片。原创 2024-07-11 11:29:26 · 236 阅读 · 0 评论 -
MetaWBC: POSIX-Compliant Metadata Write-Back Caching for Distributed File System——论文泛读
针对并行的分布式文件系统,现有方法采用写回的数据缓存以提高性能,采用直写的元数据缓存以简化一致性。本文提出元数据写回缓存(MetaWBC)机制,一种客户端驱动的文件系统架构,允许应用程序在本地处理其元数据和数据操作。包括3个技术:(1)提出了内存文件系统(MemFS)作为元数据缓存。内存充足时,所有的数据和元数据都缓存在虚拟内存中。由内核守护进程线程定期检查并回收MemFS中的缓存数据。也可以设置MemFS使用内存的上限,当内存紧张或内存使用接近上限时,数据可以直接写入主后端文件系统。原创 2024-07-10 14:53:00 · 914 阅读 · 0 评论 -
CLMS: Configurable and Lightweight Metadata Service for Parallel File Systems on NVMe SSDs——论文泛读
针对基于NVMe SSD的并行文件系统(PFS)元数据,现有PFS基于本地文件系统构建MDS,但并行访问时受限于本地文件系统的锁争用,性能低。本文提出CLMS,包括两个创新点:(1)同时使用基于目录和基于哈希的元数据分发策略,在MDS间分发负载【但实际上没结合起来,是两个单独的策略,意义不大】(2)使用用户空间元数据服务设计,降低了I/O路径中的内存复制和序列化处理开销。原创 2024-07-10 14:51:34 · 387 阅读 · 0 评论