数据治理(一)

1.数据治理的痛点

数据库、表命名管理乱=》逻辑分层
烟囱式开发,数据孤岛=》维度建模
找数难,用表难,不敢用=》数据地图
指标定义不统一,重复开=》数据字典
敏感数据泄露风险,集群存储空间告警=》数据治理
DB表全量同步效率低、影响线上业务=》增量抽取
业务方自建数据仓库=》开放共享
数据新人如何上手=》培训宣贯

2.数仓分层架构

数据采集=》原始数据层=》数据明细层=》服务数据层=》数据应用层=》数据应用(BI、画像、推荐、分析挖掘、数据地图)

3.数仓构建核心流程

  • 开始=》业务=需求标准化》数据PM=》数仓(自上往下查看数据是否存在)=》埋点

  • 需求标准化

    • 业务=》需求=》需求具体化=》实例化=》需求标准化

  • 维度及指标规范管理

    • 派生指标=日期周期+修饰词+原子指标

  • 指标管理

    • 需求=》模型管理=》数据开发=》应用

      • 数据表管理

      • 维度管理

      • 指标规范管理

        • 原子指标

        • 修饰词管理

        • 时间周期管理

    • 指标字典

    • 建模管理

      • 维度建模 - 明确主题模块、业务过程所需要的数据域

        • 业务总线矩阵=》数据主体(可以分多层)\业务主体

          • 确定主体和业务线 - 建表不重不漏 - 确定建什么表

        • 维度总线矩阵=》数据域*业务过程\维度

          • 交易:数据域 - 下单:业务过程 - 每个业务过程会用哪些字段 - RD按照规范落地

    • 命名规范 - 略

    • 数据地图

      • 解决寻找数据表、数据血缘关系等信息 - 搜索 - 筛选 - 查看 - 基础信息、详细信息(任务信息、表信息,通过Canal解析binlog)、血缘关系(解析SQL)、SQL示例 - ES+ECHARTS+MCS

4.数据治理方法论

  • 3W1H

    • 3W

      • 数据治理是什么? - 存量数据治理

        • 增量数据管控

          • 评估 - 指导

          • 监督

      • 数据治理的目标是什么? - 完善数据生产规范

        • 保障数据安全

          • 存储 - 传输

          • 展示

          • 提升数据效率

          • 保障数据治理

      • 数据治理的动机是什么?

        • 数仓初始阶段 - 技术规范和指标口径的治理

        • 数仓迭代阶段 - 技术架构治理、资源治理、安全治理

        • 数仓沉淀阶段 - 规范形成标准,从业务自上而下地推动数据治理

    • 1H

      • 数据治理如何做?

        • 数据治理标准

          • 数据埋点 - 埋点数据来源 - 埋点事件分类

            • 埋点流程

              • 数据需求目标 - 产品侧制定埋点表

              • 技术侧沟通对接

              • 获取数据

          • 技术标准 - 数仓标准、建模标准

          • 数据生命周期管理 - 原始数据层 永久保存\3年

            • 数仓层 永久保存

              • 应用层 周期删除\1年

          • 安全标准

            • 分级,根据信息进行分级

            • 等保

            • 脱敏 hash、MD5

            • 审计

              • 中控机

                • 记录所有的操作记录

          • 技术架构治理

            • 维度表扩展考虑层级

            • 跨层引用增多,数据复用低下,同一口径多次出现

            • 冷数据删除

            • 小文件合并

          • 元数据治理

          • 敏感数据的存储安全和使用安全

          • 任务治理

            • 超时任务

            • 实时任务告警

            • 任务诊断

          • 数据质量管理

            • 埋点管理:数据一致性

            • 指标体系:数据唯一性

            • 指标监控:数据准确性

            • 数据链路监控:数据及时性、数据真实性

            • 维度建模:数据关联性

        • 数据治理实施

      • 数据治理管理

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
本文从对伴随着我们每天“泄露”数据的非常特殊类型的漏洞进行的分析开始,以表明数据所有权作为解决所涉问题的答案既不可能又不充分。 我们还认为,当前对合同自由的自上而下的监管约束的构建既必要又不充分。 为了解决特定类型的脆弱性,需要自下而上的赋权结构。 后者旨在让数据主体“发表意见”,他们在数据治理方面的选择往往被简化为二元的、不知情的同意。 虽然 GDPR 等文书授予的权利可以用作塑造可能依赖数据的未来的工具——例如更好地利用自然资源、医疗保健等,但它们的行使要求很高,而且不太可能在以下情况下产生影响单独利用。 我们认为,来自汇总数据的权力应该通过信托的法律机制返还给个人。 受不可分割的忠诚受托义务的约束,数据受托人将代表信托的受益人行使 GDPR(或其他自上而下的法规)赋予的数据权利。 因此,数据受托人将处于可以根据信托条款协商数据使用的位置,从而在数据主体和数据收集者之间引入一个独立的中介。 与当前“一刀切”的数据治理方法不同,有应该是多个信托,允许数据主体选择反映其愿望的信托,并在需要时转换信托。 数据信托可能产生于公共或私人资助的计划。 通过潜在地促进对“预先授权”的汇总数据的访问(同意将在集体基础上协商,根据每个信托的条款),我们的数据信托提案可能会消除实现潜在潜在大型数据集的关键障碍。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值