前言
前段时间无意间看了一则Apache Big Data Europe 2016的回顾,感觉挺有意思的。因为本人一直focus在HDFS这个模块上,所以我特意关注了在此次大会中提到的一个issue:HDFS-7343(HDFS smart storage management)。后来本人花了一定的时间对此issue进行了学习,总结下来一句话:这个issue可以说是一个非常大胆而又具有新意的想法。它的目标是解决困扰HDFS使用者已久的一个问题:数据如何存储管理。而在HDFS-7343中,引入了一种“智能化存储”的概念,帮助用户来管理它所拥有的数据。
HDFS目前的数据管理模式
在介绍HDFS-7343中提出的“智能化存储”概念之前,需要了解现有的一个大背景:HDFS现有的数据管理模式。和最早时间段之前相比,现在的HDFS应该来说还是发展地很快的,比如说在最近几年,HDFS能够支持缓存存储(HDFS Cache),异构存储(HSM),还有EC。这些多元的存储方式能够让用户进行更加灵活的选择,当用户面对不同的应用场景时。
对于用户而言,这些数据存储方式的确是有用的,但是它们有一个共同的问题:需要外界主动触发。换句话说,当用户A发现B文件被频繁的访问,于是它需要主动将B文件进行cache,或是将它设置成Hot的存储策略。在这里HDFS是否能做到更加智能化一些,不需要用户的介入呢?因