前言
前段时间无意间看了一则Apache Big Data Europe 2016的回顾,感觉挺有意思的。因为本人一直focus在HDFS这个模块上,所以我特意关注了在此次大会中提到的一个issue:HDFS-7343(HDFS smart storage management)。后来本人花了一定的时间对此issue进行了学习,总结下来一句话:这个issue可以说是一个非常大胆而又具有新意的想法。它的目标是解决困扰HDFS使用者已久的一个问题:数据如何存储管理。而在HDFS-7343中,引入了一种“智能化存储”的概念,帮助用户来管理它所拥有的数据。
HDFS目前的数据管理模式
在介绍HDFS-7343中提出的“智能化存储”概念之前,需要了解现有的一个大背景:HDFS现有的数据管理模式。和最早时间段之前相比,现在的HDFS应该来说还是发展地很快的,比如说在最近几年,HDFS能够支持缓存存储(HDFS Cache),异构存储(HSM),还有EC。这些多元的存储方式能够让用户进行更加灵活的选择,当用户面对不同的应用场景时。
对于用户而言,这些数据存储方式的确是有用的,但是它们有一个共同的问题:需要外界主动触发。换句话说,当用户A发现B文件被频繁的访问,于是它需要主动将B文件进行cache,或是将它设置成Hot的存储策略。在这里HDFS是否能做到更加智能化一些,不需要用户的介入呢?因为有些不了解HDFS的用户可能根本不知道有这些特性。如果HDFS能真正做到对此的智能化管理,那无疑这将会是一个新的创举。
HDFS智能化存储管理概述
HDFS智能化存储管理全称叫做Smart Storage Management,简称SSM。凡是要做到智能化、自动化的事情,往往不会特别容易,更可况是在异常复杂的HDFS之内。要想做到智能化的

本文介绍了HDFS的智能化存储管理(SSM),旨在解决数据存储管理问题。SSM通过分析文件历史访问情况和其他因素,实现智能存储策略。它包含单独的SSM服务,负责分析并提供执行操作,而NameNode执行实际管理动作。文章探讨了SSM服务、整体架构、内部运行过程及可能的实现难点,并指出结合应用信息可能优化存储策略决策。
最低0.47元/天 解锁文章
999

被折叠的 条评论
为什么被折叠?



