数据治理之数据生命周期管理

大数据业务系统中,数据的生命周期管理至关重要。通过对数据进行冷热数据划分,结合云对象存储、分集群存储或HDFS的分级存储策略,可以有效降低成本并提高效率。在某一案例中,直接删除冷数据的方案被采用,通过Hive的DDL语句实现对过期数据的清理。
摘要由CSDN通过智能技术生成

大数据业务系统,在运行过程中会产生大量历史数据,这些历史数据日积月累下来,除了增加集群的存储成本,也会影响大数据集群之上的应用系统的运行效率(因为整个大数据集群的hdfs, hive, hbase等存储引擎随着负担越来越大,其响应效率会有所降低)。

所以数据治理会强调对数据进行全生命周期的管理,既要考虑数据的采集获取,也要考虑数据的备份归档。我们不能因为大数据集群本身具有可横向扩展,容量大,单位存储成本低这些特点,就对数据 “只进不出”。因为缺少了治理的数据集合,再多也不能称为“数据湖泊”,而是“数据沼泽”,是不利于数据价值的分析挖掘的。

在大数据业界,对于数据的生命周期管理,普遍的做法是,根据业务特点,分析数据使用状况,将数据分为冷数据与热数据(更细致的还有温数据),然后对冷热数据采取不同的管理策略。常见的数据管理策略有:

  • 利用云对象存储的力量:将热数据保存在当前大数据集群中支撑当前的业务系统,而将冷数据备份到云对象存储如oss, s3上;

  • 冷热数据分集群存储:将热数据保存在当前大数据集群中支撑当前的业务系统,并搭建专门的冷数据集群,将冷数据转存到冷集群中;(冷集群更侧重存储能力,热集群更侧重计算能力,在集群底层服务器选型上各有侧重,从而均衡成本);

  • 利用hdfs本身提供的分级存储的策略:hdfs新版本本身(其实也不新了,从3.0开始就逐步完善这块了,详情见jira hdfs-2832,)也是支持tiere

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哥的IT随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值