摘要:在数字化时代,数据已成为企业主要的生产要素之一。然而,随着数据量的激增,如何有效管理和利用这些数据,成为了企业面临的一大挑战。这就是数据治理发挥作用的地方。本文将探讨数据治理的基本概念,它解决的问题,与数据资产的关系。
-
数据治理解决什么问题?
-
到底什么是数据治理?
-
数据治理和数据资产的关系是什么?
01.数据治理解决什么问题
随着数据量的爆炸性增长,企业在管理和利用这些数据时常常遇到四大难题:难以发现、难以理解、难以信任和难以控制。这些问题的具体表现如下:
1、难以发现:
数据量的激增使得数据发现变得复杂。例如,某公司业务线拥有约8万张数据表,音乐业务线约有4万张表。对于数据分析人员来说,面对成千上万的宽表和数百个字段,找到所需数据就像大海捞针。实际上,大多数使用数据地图的用户是IT人员,而非业务人员,这表明业务人员在数据发现方面存在障碍。
2、难以理解:
即便找到了数据,业务人员也常常难以理解其含义。据统计,有高达78%的数据表存在关键元数据的缺失,尤其是管理元数据和业务元数据。这些元数据对于业务人员理解数据的业务背景至关重要。技术元数据通常较为完整,但管理元数据和业务元数据往往因为与业务紧密相关而缺失。
3、难以信任:
数据质量是其价值的基础。缺乏质量保障的数据可能导致错误的决策。例如,某公司曾因上游数据处理逻辑的更改而影响到下游数据的准确性,导致红包超发和数十万的资损。此外,数据质量问题常常由业务方在使用过程中发现,而非开发方,这削弱了业务团队对数据的信任。
4、难以控制:
随着业务的快速发展,数据量和相关成本也在指数级增长。数据成本往往被忽视,但实际上它不仅涉及资金,还关系到资源的最大化利用。例如,某事业部的分析显示,大部分数据表占据了不成比例的存储空间,却鲜少被访问,造成了计算和开发资源的浪费。
为了解决这些问题,企业需要采取一系列措施,包括建立有效的数据治理框架、优化数据管理流程、提高数据的可发现性和可理解性、确保数据质量,并实施精细化的数据成本控制策略。通过这些努力,企业可以更好地管理和利用其数据资产,从而支持决策制定和业务增长。
02.到底什么是数据治理
数据治理究竟是什么?它包含哪些关键组成部分?在着手实施数据治理之前,企业必须对这些问题有清晰的认识。在开展数据治理的过程中,企业往往会遇到一些常见的陷阱,例如在项目启动阶段就试图实施全面而庞大的数据治理计划,结果往往因为缺乏聚焦而效果不佳。此外,尽管企业明白元数据管理、数据标准化和数据质量对于数据治理至关重要,但在实际操作中却常常发现难以有效实施。因此,在推进数据治理工作之前,深入理解其本质至关重要,正如古语所说:“治标不治本,犹如扬汤止沸,非但不能解决问题,反而可能加剧问题。”只有深入了解数据治理的核心,才能从根本上解决问题。
1、DAMA
国际数据管理协会(DAMA International)在其权威著作《DAMA数据管理知识体系指南(DAMA-DMBOK2)》中对数据治理给出了定义:数据治理是在数据资产管理过程中进行权力行使和控制的一系列活动。它位于数据管理的十大知识领域的核心位置,确保这些领域之间的协调和统一。尽管DAMA对数据治理的描述较为概念化,但深入分析可以发现,它涵盖了数据战略、政策、架构设计、建模、合规监管以及数据资产评估等多个关键方面。《DAMA-DMBOK2》还提供了关于如何实施数据治理和评估其效果的指导和建议。尽管DAMA提供了一个全面的数据治理框架,但它更倾向于作为指导性原则,对于企业来说,要将其转化为具体可执行的数据治理实践仍有一定的挑战。
2、DCMM
DCMM(数据管理能力成熟度评估模型)是中国在数据管理领域的首个国家标准。该模型不仅提供了一套评估数据管理成熟度的框架和等级,还明确界定了八个关键的数据管理能力领域,包括数据战略、数据治理、数据架构、数据应用、数据安全、数据质量、数据标准和数据生命周期。与DAMA(国际数据管理协会)的标准相比,DCMM特别将数据标准作为一个独立的管理领域,并对其定义和成熟度等级进行了详细的阐述。此外,DCMM还对数据开发和数据应用(如数据服务和数据分析)进行了规范性描述。
数据治理是一个组织内部对数据资产进行管理和控制的一系列流程和政策,旨在确保数据的质量、安全性和合规性,同时提高数据的价值和使用效率。数据治理通常包括制定数据相关的策略、规则和程序,以及监督这些策略和规则的执行情况。根据治理的对象,数据治理可以分为两大类:
1、面向业务系统的数据治理:
这类数据治理关注于支持日常业务操作的数据,如客户信息、交易记录、产品目录等。它通常涉及到主数据管理(MDM),确保关键业务实体的数据一致性和准确性。面向业务系统的数据治理还可能包括数据的标准化、数据质量控制、数据的存储和访问策略等。
2. 面向分析系统的数据治理:
这类数据治理专注于用于报告、分析和决策支持的数据,如数据仓库、大数据分析平台中的数据。它涉及到数据的整合、清洗、转换和加载(ETL)过程,以及数据模型的构建和优化。面向分析系统的数据治理还可能包括数据的安全性、隐私保护、数据的生命周期管理等。
在实际操作中,数据治理需要跨部门的合作,包括IT、业务部门、法务、风险管理和安全团队等,以确保数据治理策略能够全面覆盖组织的数据需求,并与组织的整体目标和合规要求相一致。此外,数据治理还需要依赖于技术工具和平台,如数据治理工具、数据质量管理系统、数据安全和隐私保护工具等,来支持数据治理活动的实施和监控。
通过以上的说明数据治理包括主要三部分的内容,第一、组建数据治理团队,第二、制定数据治理流程和政策、第三、应用数据治理的平台和开发工具完成数据从不可用到可用的转化。
1、常见的数据治理组织如下图所示:
数据治理管理员:数据治理经理负责监督和推动整个组织的数据治理工作,他们对所有数据资产的治理负有最终责任,并有权决定哪些数据可以被正式发布和使用。
数据治理专员:则是直接参与数据治理活动的前线人员,他们负责管理和维护自己部门的数据。这些专员可以分为两大类:一类是来自IT技术部门的技术专员,他们专注于技术层面的数据治理工作;另一类是来自各业务部门的业务专员,他们负责处理与业务相关的数据治理任务。尽管技术专员和业务专员的治理重点不同,但他们的治理流程大致相同,通常包括接收治理任务、执行治理活动以及提交治理结果。
在治理过程中,并没有固定的先后顺序,而是根据数据的实际情况和质量需求来确定哪些角色需要参与。数据治理经理在监测数据质量时,如果发现业务信息不完整,会向相应的业务专员指派任务;如果发现技术信息有缺陷,则会向IT技术专员下达指令。一旦数据治理任务完成,数据就会被纳入资产目录,供组织内的业务用户查询和使用。
数据治理的制度和流程是确保数据管理有效性的关键组成部分。以下是数据治理制度和流程的详细描述:
2、数据治理制度
1、治理委员会的角色和职责:确定治理委员会的结构,包括委员会成员的资格、角色和职责。制定委员会的运作规则,如会议频率、决策过程和沟通机制。
2、 数据管理职责:明确不同角色和部门在数据治理中的责任,包括数据所有者、数据管理员和数据使用者。
3、政策和程序:制定数据管理政策,包括数据访问、使用、共享和保护的规则。制定标准操作程序,确保数据管理活动的一致性和合规性。
4、奖惩制度:设计激励措施,奖励遵守数据治理政策和流程的个人或团队。制定惩罚措施,对违反数据治理规定的行为进行处罚。
5、培训和意识提升:制定培训计划,提高员工对数据治理重要性的认识和相关技能。通过宣传和教育活动,提升组织内部的数据治理意识。
6、审计和合规性:制定数据治理审计计划,定期检查数据管理活动的合规性。确保数据治理流程符合法律法规和行业标准。
3、数据治理流程
1. 问题识别:通过数据质量评估、用户反馈和监控系统识别数据问题。
2. 问题分析:对识别的问题进行深入分析,确定问题的根本原因。
3. 问题解决:制定解决方案,包括技术修复、流程改进和政策调整。执行解决方案,并确保问题得到有效解决。
4. 监控和报告:建立监控机制,跟踪数据治理活动的效果。定期生成报告,向治理委员会和相关利益相关者通报数据治理的状态。
5. 数据标准管理:制定和维护数据标准,确保数据的一致性和准确性。
6. 数据质量管理:实施数据质量控制措施,如数据清洗、验证和审计。
7. 主数据管理:管理组织的核心数据,确保主数据的一致性和准确性。
8. 数据安全管理: 制定和执行数据安全政策,保护数据免受未授权访问和泄露。
9. 合规性管理:确保数据治理流程符合法律法规和行业标准。
10. 持续改进:基于监控和审计结果,不断优化数据治理流程。
数据治理的制度和流程需要相互支持,制度为流程提供指导和约束,而流程则是制度得以实施的具体行动。两者共同构成了组织数据治理的基础设施。
4、数据开发和治理一体化的平台
数据开发与治理一体化策略将数据治理活动整合到数据开发的每个阶段,遵循“先规划、再实施、先规范、再建模”的方法论。这种策略的目的在于实现数据治理与数据开发的紧密结合,确保在数据开发的每个环节都能执行数据治理任务。通过确立指标和数据标准,该策略旨在实现一个理念,即规范制定即是设计过程,设计过程即是开发活动,而开发活动本身也就是数据治理的一部分。
03.数据治理和数据资产的关系是什么?
数据治理与数据资产之间存在着密切的关系。数据资产是指那些能够为企业带来经济价值的数据资源,它们通常是经过整理、加工和优化后,能够直接或间接为企业创造效益的数据。数据治理则是确保数据资源能够转化为有价值数据资产的一系列管理活动和过程。
在数据资产入表的过程中,数据治理的作用主要体现在以下几个方面:
1. 数据质量管理:通过数据治理,可以确保数据的准确性、完整性和一致性,这些都是数据资产的重要特征。
2. 数据标准化:数据治理有助于制定和实施数据标准,使得数据资源在格式和定义上达到统一,便于管理和使用。
3. 数据安全与合规:数据治理包括确保数据的安全性和遵守相关法律法规,这对于数据资产的合法使用至关重要。
4. 数据价值发现:数据治理过程中的元数据管理和数据分析有助于发现数据资源的潜在价值,将其转化为数据资产。
5. 数据生命周期管理:数据治理涵盖了数据从创建、存储、使用到归档和销毁的整个生命周期,确保数据资产的有效利用和维护。
6 数据可用性提升:数据治理通过提高数据的可发现性和可访问性,使得数据资源更容易被业务部门和决策者使用,从而成为真正的数据资产。
总之,数据治理是将原始的数据资源转化为有价值的数据资产的基础,它通过一系列的管理措施和流程,确保数据资源的质量和价值得到提升,最终成为企业可以依赖和利用的数据资产。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。