SoMeta: Scalable Object-centric Metadata Management for High Performance Computing——论文泛读

CLUSTER 2017 Paper 分布式元数据论文阅读笔记整理

问题

科学数据集的数量迅速增长,通常附有丰富的元数据,如相关的实验或模拟信息。理想情况下,元数据及其相应的数据应由单个存储系统进行管理,并且可以直接访问和更新,并提供高级元数据操作如添加和搜索标签。然而,高性能计算(HPC)环境中的现有存储系统,如Lustre并行文件系统,只维护数据文件的系统元数据,而这些元数据是静态的不可扩展。其他元数据管理的负担落在用户身上,需要开发专门的元数据管理软件。

挑战

以可扩展的方式有效地管理以对象为中心的存储(OCS)系统的元数据是一个关键要求。未来的OCS系统将提供抽象的数据模型和语义丰富的接口。在这些系统中,数据对象包含数据,如多维数组和键值对,元数据对象包含存储位置、数据源,甚至初始分析结果。这种丰富元数据的使用场景无法维持现有的基于文件和目录的分层元数据管理方法,而且元数据管理实现可扩展性、可扩展性和可搜索性以及容错性至关重要。

本文方法

本文提出了SoMeta,用于HPC系统中以对象为中心的存储,可扩展和分散的元数据管理方法。

  • 动态分区的平面命名空间,利用并行性分发元数据对象,并允许无限数量的服务器管理数亿个元数据对象。不使用目录树,使用包含多个标签的平面命名空间存储元数据。

    使用两级哈希,使用djb2哈希函数。第一级将文件属性连接成字符串用于哈希,通过分布式哈希表将(DHT)平面命名空间划分到多个服务器上。第二级将名称用于哈希,便于范围查找,例如查找特定名称和时间步长范围之间的所有元数据对象。使用计数布隆过滤器,减少将新元数据对象插入DHT的重复检查开销。

  • 可扩展和用户可定义的元数据的标记方法,标记是构成元数据对象的键值对,支持动态标签创建、更新和删除操作。

  • 支持灵活的元数据搜索,用户可以使用语义标签搜索和检索元数据对象,而不必记住语义信息有限的对象ID。

  • 基于窗口的自适应容错机制。为了处理任何服务器故障,定期记录元数据检查点到SSD和硬盘等持久存储设备。它还能够在运行时从服务器故障中恢复,而不会丢失数据。

实验表明,SoMeta在执行常见元数据操作方面比Lustre快3.7X,在高级元数据操作(如添加和搜索标签)方面比SciDB和MongoDB快16X。SoMeta允许用户根据工作负载指定元数据服务器的数量,从而提供了可扩展的用户空间元数据管理。

总结

针对HPC场景中元数据管理问题,现有方法难以支持动态扩展和变化的元数据信息(数据存储信息,数据源,初步分析结果等),现有方法不能支持高效的高级元数据操作如添加和搜索标签。本文提出SoMeta:(1)动态分区的平面命名空间,使用包含多个标签的平面命名空间存储元数据。利用两级哈希分散数据,第一季将数据分布到服务器上,第二级用于查找。(2)可扩展和用户可定义的元数据的标记方法,支持动态标签创建、更新和删除操作。(3)支持灵活的元数据搜索,可以使用语义标签搜索和检索元数据对象。(4)利用检查点实现容错。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

妙BOOK言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值