HDFS文件系统之存储优化篇1

 

        随着业务数据规模逐渐变大,业务成本越来越高,同时HDFS本身的数据冗余多副本机制放大存储成本过高文题,且近年来各大公司都在搞降本增效,所以相关降本要求越来越高,对HDFS本身存储系统提出更多的挑战。

一. HDFS EC介绍

        首先介绍一下EC,EC是Erasure coding的简称,是一种编码容错技术。HDFS 默认的EC编码为RS-6-3-1024,若应用此编码相比默认的三副本大概可以节省一半的成本。HDFS数据的布局方式分为两种,一种是连续布局,如果出现问题EC修复粒度太大,容易造成资源瓶颈问题,第二种是条行布局,EC修复粒度较小,修复成本低。整体如下图所示:

二. HDFS EC应用

        一般的部署模式是EC数据用专门的大存储介质集群,上层用rbf统一管理,然后采用离线EC转换的方式进行EC数据落地,主要考虑点是:新产生的数据一般不是冷数据,且目前HDFS在线EC稳定性会差一些。同时为了保证数据安全需要做严格的效验和检测机制。上层可以做一套EC数据管理平台,方便业务进行接入和应用,同时也方便平台同学去管理,具体包括:冷数据分层管理,实现自动识别,自动转化支持,转换任务管理,数据安全管理,数据监控等。整体如下图所示:

        当然,目前HDFS EC机制也存在一些问题,比如说会影响下线效率,应用EC Block的节点下线效率非常低,因为都是单副本,会有资源瓶颈问题。 另外在线读写效率一般,有一定的修复代价,整体稳定性差一些,无法满足温数据场景的性能要求。

三. 总结:

        本篇文章主要介绍了HDFS EC的机制以及具体应用,经过上边的叙述,我们可以看到HDFS EC较适用于冷数据场景,可以大大的减少存储成本,但是也会带来一定的修复代价,所以具体应用过程中还是要结合业务稳定性要求等因素进行考量。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值