大数据业务系统,在运行过程中会产生大量历史数据,这些历史数据日积月累下来,除了增加集群的存储成本,也会影响大数据集群之上的应用系统的运行效率(因为整个大数据集群的hdfs, hive, hbase等存储引擎随着负担越来越大,其响应效率会有所降低)。
所以数据治理会强调对数据进行全生命周期的管理,既要考虑数据的采集获取,也要考虑数据的备份归档。我们不能因为大数据集群本身具有可横向扩展,容量大,单位存储成本低这些特点,就对数据 “只进不出”。因为缺少了治理的数据集合,再多也不能称为“数据湖泊”,而是“数据沼泽”,是不利于数据价值的分析挖掘的。
在大数据业界,对于数据的生命周期管理,普遍的做法是,根据业务特点,分析数据使用状况,将数据分为冷数据与热数据(更细致的还有温数据),然后对冷热数据采取不同的管理策略。常见的数据管理策略有:
利用云对象存储的力量:将热数据保存在当前大数据集群中支撑当前的业务系统,而将冷数据备份到云对象存储如oss, s3上;
冷热数据分集群存储:将热数据保存在当前大数据集群中支撑当前的业务系统,并搭建专门的冷数据集群,将冷数据转存到冷集群中;(冷集群更侧重存储能力,热集群更侧重计算能力,在集群底层服务器选型上各有侧重,从而均衡成本);
利用hdfs本身提供的分级存储的策略:hdfs新版本本身(其实也不新了,从3.0开始就逐步完善这块了,详情见jira hdfs-2832,)也是支持tiere