一、元数据管理
1、什么是元数据
元数据简单来说就是描述数据的数据,更直白来说就是描述表名、表制作者、表字段、表生命周期、表存储信息的数据。
2、元数据的分类
元数据信息主要对治理无效表下线、表优化(执行引擎优化、压缩格式优化、存储格式优化),计算优化(费时任务、计算链路、引擎升级)、僵尸文件治理,最终目标实现通过元数据的可视化,便捷的对系统进行管理优化
1、基础信息:解决表归属问题
库表名、数据域、分层、负责人、生命周期、文件路径
2、存储信息
存储量(日增量)、文件数、记录数、文件格式、压缩格式
3、读写信息:解决跨项目、跨产品血缘追踪问题
下游标数量、数据最新更新日期、读取频次、读取来源、执行引擎、引用最长链路数
4、任务信息:解决任务批量提交问题
任务名、责任人、创建人、最近提交人、调度周期
5、计算信息:解决多执行引擎合并计算与分摊问题
cpu使用、内存使用、单表计算费用、计算链路分摊费用
3、元数据如何管理
1、工具化
开源:可使用atlas获取表依赖以及信息、可做二次开发,也可以做可视化界面
自研平台化、云服务:①通过数据地图做元数据的一站式管理,②数据资产门户(对主题域、数据表、归纳、提升下游使用效率)
2、规范化:表/字段命名、注释、使用说明、存储规范、创建者、模型热度(读取、引用、收藏、检索、是否核心表),模型质量评分、质量监控
3、数据血缘:清晰知道表的上下游、方便排查问题知道下游那个模块在使用,提升开发效率以及后期管理维护。
①血缘分类&#