数据治理之数据生命周期管理

最新推荐文章于 2024-08-25 14:15:00 发布

明哥的IT随笔

最新推荐文章于 2024-08-25 14:15:00 发布

阅读量2.4k

点赞数

文章标签： hadoop 大数据 java hive spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MichaelLi916/article/details/119458890

版权

大数据业务系统中，数据的生命周期管理至关重要。通过对数据进行冷热数据划分，结合云对象存储、分集群存储或HDFS的分级存储策略，可以有效降低成本并提高效率。在某一案例中，直接删除冷数据的方案被采用，通过Hive的DDL语句实现对过期数据的清理。

摘要由CSDN通过智能技术生成

大数据业务系统，在运行过程中会产生大量历史数据，这些历史数据日积月累下来，除了增加集群的存储成本，也会影响大数据集群之上的应用系统的运行效率（因为整个大数据集群的hdfs, hive, hbase等存储引擎随着负担越来越大，其响应效率会有所降低）。

所以数据治理会强调对数据进行全生命周期的管理，既要考虑数据的采集获取，也要考虑数据的备份归档。我们不能因为大数据集群本身具有可横向扩展，容量大，单位存储成本低这些特点，就对数据 “只进不出”。因为缺少了治理的数据集合，再多也不能称为“数据湖泊”，而是“数据沼泽”，是不利于数据价值的分析挖掘的。

在大数据业界，对于数据的生命周期管理，普遍的做法是，根据业务特点，分析数据使用状况，将数据分为冷数据与热数据（更细致的还有温数据），然后对冷热数据采取不同的管理策略。常见的数据管理策略有：

利用云对象存储的力量：将热数据保存在当前大数据集群中支撑当前的业务系统，而将冷数据备份到云对象存储如oss, s3上；
冷热数据分集群存储：将热数据保存在当前大数据集群中支撑当前的业务系统，并搭建专门的冷数据集群，将冷数据转存到冷集群中；（冷集群更侧重存储能力，热集群更侧重计算能力，在集群底层服务器选型上各有侧重，从而均衡成本）；
利用hdfs本身提供的分级存储的策略：hdfs新版本本身（其实也不新了，从3.0开始就逐步完善这块了，详情见jira hdfs-2832,）也是支持tiere

最低0.47元/天解锁文章

明哥的IT随笔

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

明哥的IT随笔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。