存储和成本管理-CSDN博客

本文链接：https://blog.csdn.net/m0_74122615/article/details/146458708

目的：有效的降低存储资源的消耗，节省存储成本

数据压缩

分布式文件系统为了保证数据的可靠性和性能，通常将数据存储3份

那么1TB数据实际会消耗3TB的存储空间

6份数据+3份校验块，使得存储比从1:3提高到1:1.5，省下一半的物理空间

局限性：恢复故障数据块的时间比原来更长，导致读性能损失

场景：冷备数据和日志数据的压缩

因为这些数据超过一定时间期限后被使用的频率非常低，但又属于不可恢复数据

对于该部分数据考虑对历史数据的分区进行archive

在列式存储中，由于每张表的分布不同，插入数据的顺序也不同，会导致压缩效果的差异

通过数据重分布，避免列热点，节省存储空间

重分布=Distribute by + Sort by(局部排序)

在元数据基础上，诊断、加工成多个存储治理优化项

如未管理表、空表、最近 62 天未访问表、数据无更新无任务表、数据无更新有任务表、开发库数据大于100GB 且无访问表、长周期表等

形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化闭环

目的：用最少存储成本满足最大业务需求

周期删除策略

周期同步的全量数据

彻底删除

无用表or临时表

永久保留

重要且不可恢复的底层数据和应用数据需要永久保留，如底层交易的增量数据

极限存储

极限存储可以超高压缩重复镜像数据，通过平台化配置手段实现透明访问

缺点是对数据质量要求非常高，配置与维护成本比较高，

冷数据管理

永久保留的数据需要迁移到冷数据中心进行永久保存

增量表merge全量表

管理规范：主要通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。

历史数据等级划分

主要将历史数据划分P0、P1、P2、P3四个等级

历史数据等级	重要性	可否恢复	例子
P0	非常重要	不可恢复	交易、日志、集团 KPI 数据、 IPO 关联表
P1	重要	不可恢复	重要的业务产品数据
P2	重要	可恢复	交易ETL 产生的中间过程数据
P3	不重要	可恢复	SNS 产品报表。