HDFS跨外部存储系统的多层级存储

前言


目前大数据和云计算是当下讨论非常火热的2个词,笔者也非常相信在未来的时间内,以Hadoop系统生态圈为代表的大数据工具,将会被更多的企业所使用。在一些更大规模的公司,已经将大数据与云联系在了一起了,举个例子,我们将数据存储在HDFS内,然后在定期同步到云上,相当于云端存储的数据是一个back store。这样做的一个好处是防止本地集群的数据遭到意外的破坏或丢失,至少在云端我们还有备份。或者有另外的一些做法是,我们通过一层适配操作,将用户写入集群的数据直接就写到了远端的云上,但是对于用户而言它是无感知的。目前Hadoop系统中有这个方面的工程,比如hadoop-tools父工程下的hadoop-aws和hadoop-aliyun,分别针对的云服务就是亚马逊的S3和阿里云的OSS服务。面对此类的使用场景,社区在HDFS-9806提出了跨外部存储系统的多层级存储设计。本文笔者就来简单聊聊此话题。如果我们想在HDFS内部支持外部存储介质的读写,我们可以怎么实现呢?

HDFS跨外部存储系统的结构概述


如果HDFS支持了跨外部系统的存储,也就是说,我们能够通过HDFS提供的API将数据写到外部的存储系统中,它可能是一个云上的存储服务,又或者说是一个简单的k-v存储系统。但是不管目标存储系统的存储形如何,它在HDFS内部的命名空间一定是全局一致的,用户还是通过在某个路径下去读写文件。只是这些文件到底是HDFS集群内的数据还是说是外部存储系统内的。所以这里会有一个映射的概念,这点非常类似于笔者之前提过的Hadoop的ViewFS特性。这相当于在

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值