笔记链接:https://harvest-thunbergia-939.notion.site/Chapter14-1bf8f6274c0f807bb203f26fe99c8b42?pvs=4
目的:有效的降低存储资源的消耗,节省存储成本
数据压缩
分布式文件系统为了保证数据的可靠性和性能,通常将数据存储3份
那么1TB数据实际会消耗3TB的存储空间
MaxCompute的archive方法
6份数据+3份校验块,使得存储比从1:3提高到1:1.5,省下一半的物理空间
局限性:恢复故障数据块的时间比原来更长,导致读性能损失
场景:冷备数据和日志数据的压缩
因为这些数据超过一定时间期限后被使用的频率非常低,但又属于不可恢复数据
对于该部分数据考虑对历史数据的分区进行archive
数据重分布
在列式存储中,由于每张表的分布不同,插入数据的顺序也不同,会导致压缩效果的差异
通过数据重分布,避免列热点,节省存储空间
重分布=Distribute by + Sort by(局部排序)
存储治理项优化
在元数据基础上,诊断、加工成多个存储治理优化项
如未管理表、 空表、最近 62 天未访问表、数据无更新无任务表 、数据无更新有任务表、开发库数据大于100GB 且无访问表、长周期表等
形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化闭环
生命周期管理
目的:用最少存储成本满足最大业务需求
管理策略
周期删除策略
周期同步的全量数据
彻底删除
无用表or临时表
永久保留
重要且不可恢复的底层数据和应用数据需要永久保留,如底层交易的增量数据
极限存储
极限存储可以超高压缩重复镜像数据,通过平台化配置手段实现透明访问
缺点是对数据质量要求非常高,配置与维护成本比较高,
冷数据管理
永久保留的数据需要迁移到冷数据中心进行永久保存
增量表merge全量表
通用生命周期管理矩阵
管理规范:主要通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。
-
历史数据等级划分
主要将历史数据划分P0、P1、P2、P3四个等级
历史数据等级 重要性 可否恢复 例子 P0 非常重要 不可恢复 交易、日志、集团 KPI 数据、 IPO 关联表 P1 重要 不可恢复 重要的业务产品数据 P2 重要 可恢复 交易ETL 产生的中间过程数据 P3 不重要 可恢复 SNS 产品报表。 -
表类型划分
事件型流水表(增量)-
数据无重复或者无主键数据,如日志
-
-
事件型镜像表
-
指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。
-
-
维表
-
维度与维度属性数据
-
-
Merge全量表
-
业务过程性数据或者维表数据
-
-
ETL临时表
-
数据同步临时数据
-
普通全量表
数据成本计量
数据成本 = 存储成本 + 计算成本 + 扫描成本(包含了依赖表的成本)
数据成本管理 = 数据成本计量 + 数据使用计量