1.数据治理的痛点
数据库、表命名管理乱=》逻辑分层 烟囱式开发,数据孤岛=》维度建模 找数难,用表难,不敢用=》数据地图 指标定义不统一,重复开=》数据字典 敏感数据泄露风险,集群存储空间告警=》数据治理 DB表全量同步效率低、影响线上业务=》增量抽取 业务方自建数据仓库=》开放共享 数据新人如何上手=》培训宣贯
2.数仓分层架构
数据采集=》原始数据层=》数据明细层=》服务数据层=》数据应用层=》数据应用(BI、画像、推荐、分析挖掘、数据地图)
3.数仓构建核心流程
-
开始=》业务=需求标准化》数据PM=》数仓(自上往下查看数据是否存在)=》埋点
-
需求标准化
-
业务=》需求=》需求具体化=》实例化=》需求标准化
-
-
维度及指标规范管理
-
派生指标=日期周期+修饰词+原子指标
-
-
指标管理
-
需求=》模型管理=》数据开发=》应用
-
数据表管理
-
维度管理
-
指标规范管理
-
原子指标
-
修饰词管理
-
时间周期管理
-
-
-
指标字典
-
建模管理
-
维度建模 - 明确主题模块、业务过程所需要的数据域
-
业务总线矩阵=》数据主体(可以分多层)\业务主体
-
确定主体和业务线 - 建表不重不漏 - 确定建什么表
-
-
维度总线矩阵=》数据域*业务过程\维度
-
交易:数据域 - 下单:业务过程 - 每个业务过程会用哪些字段 - RD按照规范落地
-
-
-
-
命名规范 - 略
-
数据地图
-
解决寻找数据表、数据血缘关系等信息 - 搜索 - 筛选 - 查看 - 基础信息、详细信息(任务信息、表信息,通过Canal解析binlog)、血缘关系(解析SQL)、SQL示例 - ES+ECHARTS+MCS
-
-
4.数据治理方法论
-
3W1H
-
3W
-
数据治理是什么? - 存量数据治理
-
增量数据管控
-
评估 - 指导
-
监督
-
-
-
数据治理的目标是什么? - 完善数据生产规范
-
保障数据安全
-
存储 - 传输
-
展示
-
提升数据效率
-
保障数据治理
-
-
-
数据治理的动机是什么?
-
数仓初始阶段 - 技术规范和指标口径的治理
-
数仓迭代阶段 - 技术架构治理、资源治理、安全治理
-
数仓沉淀阶段 - 规范形成标准,从业务自上而下地推动数据治理
-
-
-
1H
-
数据治理如何做?
-
数据治理标准
-
数据埋点 - 埋点数据来源 - 埋点事件分类
-
埋点流程
-
数据需求目标 - 产品侧制定埋点表
-
技术侧沟通对接
-
获取数据
-
-
-
技术标准 - 数仓标准、建模标准
-
数据生命周期管理 - 原始数据层 永久保存\3年
-
数仓层 永久保存
-
应用层 周期删除\1年
-
-
-
安全标准
-
分级,根据信息进行分级
-
等保
-
脱敏 hash、MD5
-
审计
-
中控机
-
记录所有的操作记录
-
-
-
-
技术架构治理
-
维度表扩展考虑层级
-
跨层引用增多,数据复用低下,同一口径多次出现
-
冷数据删除
-
小文件合并
-
-
元数据治理
-
敏感数据的存储安全和使用安全
-
任务治理
-
超时任务
-
实时任务告警
-
任务诊断
-
-
数据质量管理
-
埋点管理:数据一致性
-
指标体系:数据唯一性
-
指标监控:数据准确性
-
数据链路监控:数据及时性、数据真实性
-
维度建模:数据关联性
-
-
-
数据治理实施
-
-
数据治理管理
-
-