摘自《基于数据湖架构下的数据治理体系》基于数据湖架构下的数据治理体系.pdf-其它文档类资源-CSDN下载
数据湖数据治理
数据湖的数据治理包括元数据的管控、数据资产目录、主数据管控、数据服务、数据全生命周期管理、数据质量提升及隐私与安全管理。
(1)元数据的管控
传统的数据仓库将数据存储在关系表中,而数据湖则使用平面结构。每个数据元素被分配唯一标识符,并用一组元数据标签进行标记。这就是说,数据湖没有数据仓库那么结构化。
设计元数据标准及采集方案、元数据应用、管理流程等,形成企业级数据资源目录与全链式数据流通追踪,实现对企业数据资源的清晰堂握和数据流通全流程的监控,满足分布式部署模式下数据资源完整性管理及应用的需求。
数据湖解决方案为企业中海量的数据集提供了一套集中的元数据管理系统,提供全局的数据资源目录、完整的数据元数据描述、数据血缘关系,方便员工快速查找了解数据,更好的支撑数据分析。
(2)数据资产目录
数据资源目录包含业务术语表关联、标签管理、数据分类、数据来源和全文检索。通过最大限度的自动化和有限的人工操作,可以从构建的数据资产目录中获得更多价值。例如利用机器学习可以实现数据自动分类和打标签。再如,有监督学习技术是基于已经打上标签的样本数据上训练一个模型,然后将该模型应用于所有未打标的数据,在这些数据中,实例根据预测中的信任度进行排序。最自信的预测然后被添加到标记的例子中。这个过程不断重复,直到所有未标记的例子都被标记。
(3)主数据管控
面向数据湖内全量数据,基于数据关系,实现自动化的主数据识别映射、主数据一致性维护主数据关系发布等功能,搭建企业核心业务对象数据的管理体系,支撑跨业务的数据联动以及基于数据驱动的业务协同。
(4)数据质量提升
针对企业缺乏对全部数据资源进行系统质量控制的现状,设计企业级数据质量规则定义、控制管理流程和手段,提高和确保数据质量,为业务应用提供规范、准确的数据支撑。有效的数据湖部署需要数据质量分析师、工程师与数据治理团队、数据管理员密切合作,以部署数据质量策略、分析数据并采取必要的措施来提高其质量。
(5)数据生命周期管理
数据的生命周期,包括数据的起源以及数据是如何随时间移动的。它描述了数据在各种处理过程中发生了哪些变化,有助于提供数据分析流水线的可见性,并简化了错误溯源。通过对元数据的关系解析和血缘分析,构建全维关系图谱,实现关系融合。通过对数据的血缘分析、数据标签等方法,实现数据多版本共存条件下的统一身份和可控的数据归一化,最终实现的数据全生命周期管理和追踪。
(6)数据服务
- 主题数据服务
- AI数据服务
- 微服务数据服务
(7)数据质量提升
有效的数据治理使企业能够提高数据湖中的数据质量,并利用数据进行业务决策,从而可以改善业务规划和财务绩效,因此定义数据源以及管理和使用数据至关重要。企业还可以考虑在消费方而不是采购方应用数据质量检查。因为,单个数据质量体系结构可能不适用于所有类型的数据。必须注意的是,如果数据被“清理”,用于分析的结果可能会产生影响。修复数据集中值的字段级数据质量规则可以影响预测模型结果,因为这些修复可以影响异常值。
(8)隐私与安全
数据安全标准和策略未被正确纳入治理流程中,可能会导致无法访问受隐私法规和其他类型的敏感数据保护的个人数据。健康数据湖的关键组成部分是隐私和安全性,包括基于角色的访问控制、身份验证、授权以及静态和动态数据加密等。从纯数据湖和数据管理的角度来看,最重要的往往是数据混淆,包括标记化和数据屏蔽。应该使用这两个概念来帮助数据遵守最小特权的安全概念。限制数据访问也对许多希望遵守法规的企业具有意义。尽管数据湖旨在成为相当开放的数据源,但仍需要安全性和访问控制措施,数据治理和数据安全团队应携手完成数据湖设计和加载过程,以及持续的数据治理工作。