一、数据管理基础
(一)数据管理概念
数据管理旨在交付、控制、保护并提升数据和信息资产价值,其直接目标是数据质量,最终目标是实现数据价值,主要驱动力是助力组织从数据资产中获取价值。数据不仅包括数字形式存储的数据,还涵盖纸面上的数据,它是对事实的一种表达,但 “事实” 并非总是直观明确。在数据与信息的关系上,虽然数据常被视为 “信息的原材料”,信息被看作 “在上下文语境中的数据”,但在本书中二者术语可互换使用。
(二)数据作为资产
- 财务报表困境:当前数据还无法直接登上财务报表,尽管满足部分财务会计准则条款,但仍不符合 21 和 22 条,若要实现数据作为资产在财务报表中的体现,需要对现有财务准则进行修改。
- 价值评估方法:数据价值评估常用成本法、市场法和盈利法,DAMA 主要采用成本法,其计算涉及获取数据和存储数据的成本。目前,全国仅有光大银行和南方电网的评估模型获得国家层面认可。
(三)数据管理原则
数据管理遵循 12 项原则,例如数据是具有独特属性的资产,其价值可用经济术语衡量;管理数据需注重质量管理和元数据管理,同时要有规划,并从企业级视角出发,跨职能开展工作等。这些原则贯穿于数据管理的各个环节,为数据管理活动提供了基本准则和指导方向。
(四)数据与其他资产区别
与实物资产和金融资产相比,数据具有独特性质。它无形且持久,不易磨损,可轻松复制和传送,但丢失或销毁后难以重新产生;在使用过程中不会被消耗,甚至能在不损耗的情况下被窃取;具有动态性,可同时被多人用于多种目的,并且多次使用会产生更多数据,这使得组织面临数据量和数据关系日益复杂的管理挑战。
二、数据处理伦理
(一)伦理准则核心
伦理是基于是非观念的行为准则,侧重于公平、尊重、责任等方面。对于数据管理专业人员和相关组织而言,数据伦理是重要的社会责任。数据处理伦理问题主要聚焦于对人的影响、数据滥用的可能性以及数据的经济价值。数据代表个人特征,用于决策时会影响人们生活,因此必须确保其质量和可靠性;同时,需要伦理准则防止数据滥用,并明确数据所有权及使用规范。
(二)数据伦理准则
数据伦理准则包含尊重他人、行善原则、公正以及尊重法律和公众利益。数据隐私法便是伦理准则上升为法律的体现,例如 GDPR 准则,涵盖公平合法透明、目的限制、数据最小化等多方面要求,为数据处理提供了严格规范。
(三)伦理问题场景
数据伦理问题存在于多种场景,如时机选择、可视化误导、定义不清晰或无效的比较以及偏见等。偏见类型包括预设结论的数据采集、预感和搜索、片面抽样方法以及受背景和文化影响产生的偏见等。为减少偏见,可运用统计工具选择样本并确定合适样本大小,同时要充分意识到训练样本数据可能存在的偏见问题。
三、数据治理
(一)数据治理范畴
数据治理是数据管理的一部分,涵盖组织架构、规章制度、流程和技术等方面,其内容包括战略制定、策略设置、标准和质量把控、监督审计、合规管理、问题处理、项目推进以及数据资产估价等。数据治理常见的驱动因素是法规遵从性,通过减少风险、改进流程来推动组织数据管理的发展,且它并非一次性行为,而是持续的过程。
(二)与其他治理的区别
数据治理要与 IT 治理区分开来,它并非直接管理数据,而是对数据管理进行管理,类似会计审计人员与财务会计人员的关系,将监督和执行职责分离。
(三)治理模式与组织架构
数据治理有集中式、分布式和联邦式三种模式。组织架构涉及是否设立首席数据官、委员会,以及数据管理专员、数据 owner 的职责和问责机制等。首席数据官负责管好数据、推动转型和建设团队;数据管理职责主要是有效控制和使用数据资产,数据管理专员代表组织利益管理数据资产,但他们通常没有立项和预算权限,此权限归数据 owner 所有。
(四)治理战略交付物与运营模型
数据治理战略交付物包含章程、运营框架和职责、实施路线图以及为成功运营制定的计划等。在构建数据治理运营模型时,需考虑数据对组织的价值、业务模式、文化因素和监管影响等方面。此外,制定业务术语表虽存在争议,但对数据治理也具有一定意义;数据治理指标可从价值、有效性和可持续性等方面进行衡量。
四、数据架构
(一)数据架构定义
数据架构是企业架构的一部分,目标是在业务战略和技术实现之间搭建桥梁。它包括数据模型(概念模型、逻辑模型、物理模型)和数据的分布图(如流程图、价值链)。概念模型和逻辑模型更偏向业务,由数据架构师主导;物理模型是数据建模的输出物,与技术选型相关,由 DBA 负责。
(二)相关原则与框架
数据架构遵循两个重要原则,同时与企业架构中的业务架构、应用架构和技术架构相互关联。常见的企业架构框架有 TOGAF、Zachman 框架(由 6×6 矩阵构成的本体模型,可完整描述企业及其关系)和 FEA(包含企业数据模型和数据流设计)等。
(三)架构建立与实施
建立企业数据架构工作包括战略规划(选择框架、制定方法、开发路线图)、沟通与文化建设(建立沟通机制、激励参与者)、组织协调(明确责任和职责)、工作方法确定(与企业架构一致,定义最佳实践)以及成果产出(在路线图中生成数据架构产品)。企业数据架构项目活动涉及定义范围(保证与企业数据模型一致,确定项目范围和利益相关者依赖性)、理解业务需求(获取数据需求并评估业务价值)、设计(形成详细规范,验证结果,提升模型扩展性)、实施、运维和运营等环节。项目中的架构角色依软件开发过程和采用的方法(瀑布、迭代、敏捷)嵌入项目,实施企业数据架构还需建立团队、生成构件初始版本、形成工作方式并提高组织对其价值的认识,衡量指标包括架构接受度、实施趋势和业务价值。
五、数据建模和设计
(一)建模重要性
数据建模至关重要,它直接决定表结构设计,进而影响存储成本和性能。数据模型为数据管理提供通用词汇表,有助于记录组织内数据和系统信息,是项目交流的重要工具,也是应用定制、整合和替换的基础。
(二)模型类型与组件
常见的数据模型模式有关系模式、多维模式等六种,每种模式又分为概念、逻辑和物理三层模型。大多数数据模型包含实体、关系、属性和域等组件。概念模型无属性,逻辑模型用业务术语描述并包含属性,物理模型涉及技术选型和命名规则等标准。在关系设计中,多对多关系需借助中间表处理,多对一、一对多关系可行,一对一关系通常需合并实体。
(三)工程与标准
正向工程是从需求构建新应用程序的过程,包括建立概念模型、逻辑模型和物理模型;逆向工程用于记录现有数据库,在元数据管理中具有重要作用。数据标准可参考联合国、国标、行标等地标,也可自建,如运营商行业标准 SID。在数据建模中,还涉及键的概念(如主键是实体的唯一标识符)和域的定义(属性的取值范围,可通过数据类型、格式、列表等方式定义)。
(四)特殊模式与设计原则
维度建模用于 OLAP,包含事实表和维度表(有星型设计和雪花设计两种)。SCD(渐变类的维度)根据变化速率和类型管理变化,有覆盖、新行、新列三种变化类型。非关系型数据库(NoSQL)包括文档、列、图、键值等类型,其产生是由于传统 SQL 无法满足所有需求(如 No More SQL 或 Not Only SQL)。物理数据模型受技术约束,概念和逻辑模型更侧重于业务,逆规范化是将符合范式的逻辑模型转换为带冗余数据的物理表,目的是提高性能,常用于 OLAP 而非 OLTP。在数据库设计时,DBA 需遵循 PRISM 设计原则(性能和易用性、可重用性、完整性、安全性、可维护性) 。
六、数据存储和操作
(一)数据库相关支持
数据库操作支持和技术支持至关重要,数据库管理员(DBA)在这两方面发挥关键作用。DBA 根据专业分工可分为生产 DBA、应用程序 DBA、过程和开发 DBA。
(二)数据库处理类型
数据库处理主要有 ACID 和 BASE 两种类型。ACID 强调一致性(all or nothing),而 BASE 注重最终一致性,在大数据环境(如大型互联网和社交媒体公司)中,BASE 类型系统应用广泛。此外,还有 CAP 定理(布鲁尔定理),指出分布式系统在一致性、可用性和分区容错性这三项要求中最多只能同时满足两项,系统规模越大,满足的要求越少,需要在不同属性间进行权衡。
(三)数据库技术要点
不同数据库在性能等方面存在差异,如 Oracle 12、MariaDB - MySQL、DorisDB 7 等。数据库备份和 RAID 技术用于保障数据安全和存储性能,OLTP 和 OLAP 对数据存储和处理的要求不同(如 OLTP 强调业务连续性,OLAP 注重性能),其存储配置也有所区别。变动数据捕获(CDC)技术用于捕获数据变化,目前市场上主流的 RDBMS 有 Oracle、SQL Server 等。在数据存储和操作中,还涉及去 IOE(去除 IBM、Oracle、EMC 产品)、信创安可等概念,以及对数据库性能的管理和调优(如优化 SQL、调整数据库参数、改进设计、优化 OS 或使用 Redis 等)。
七、数据安全
(一)数据安全特性
数据安全与网络安全不同,其业务驱动因素包括降低风险、促进业务增长以及将安全性视为资产。数据安全活动目标是支持适当访问并防止不当访问企业数据资产,同时确保遵从隐私、保护和保密政策法规,满足利益相关者对隐私和保密的要求。
(二)安全要求与过程
数据安全要求和过程分为 4A(访问、审核、身份验证、授权),如今为遵守数据法规还加入了 E(权利)。数据加密技术包括哈希、对称加密和非对称加密,数据脱敏分为静态脱敏(永久更改数据,常用于生产与开发或测试环境之间)和动态脱敏(不更改基础数据,改变数据外观),此外还有时空变异和数值变异等脱敏方式。
(三)安全相关概念
渗透测试通过 “白帽” 黑客模拟恶意攻击来识别系统漏洞,发现的漏洞需在应用发布前解决。数据安全涉及设施安全、设备安全、凭据安全和电子通信安全等方面,同时有不同的机密分类级别(如普通受众公开、内部使用、机密、受限机密、绝密),以及多种敏感数据类型(如 PII、财务敏感数据、医疗敏感数据等)。在数据安全管理中,还涉及权限管理(CRUD 权限,即创建、读取、更新、删除)和职责管理(RACI 矩阵,明确负责、批注、咨询、通知职责),并且要注意外包世界中的数据安全,责任不可外包。数据安全度量指标包括安全实施、安全意识、数据保护、安全事件和机密数据扩散等方面。
八、数据集成和互操作
(一)数据加载方法
数据集成和互操作中,抽取、转换、加载(ETL)和 ELT 是不同的数据加载方法。ETL 适用于结构化数据,常用于数仓,其业务场景明确,主要对已发生的事情进行总结展现,用于 BI;ELT 适用于结构化和非结构化数据,常用于数据湖,业务场景不明确,侧重于对未来的预测和挖掘,用于 AI。二者的区别还体现在转换环节的先后顺序上,ELT 允许在数据加载到目标系统后再进行转换。
(二)相关概念与技术
数据集成涉及血缘关系(数据的来源和流转路径)和时延(从源系统生成数据到目标系统可用该数据的时间差,时延决定数据加载方法)等概念。数据高铁是对数据传输时效性的一种描述,有不同的时间标准(如 T + 30、T + 7 等) 。实现数据集成的软件众多,基于批量处理的有 Informatica、Ab Initio 等,实时处理的有 Kafka、Pulsar 等。交互模型有点到点、中心辐射型和发布与订阅三种,编排用于描述系统中多个相关流程的组织和执行方式。此外,还有数据联邦(提供访问多个独立数据存储库组合的权限)和数据虚拟化(使分布式数据库及异构数据存储可作为单个数据库访问和查看)等技术。
(三)衡量指标
衡量数据集成解决方案的规模和收益可从数据可用性、数据量和速度(包括传送和转换的数据量、分析数据量、传送速度等)以及解决方案成本和复杂度(包括开发和管理成本、获取新数据的便利性等)等方面进行。
九、文件和内容管理
(一)管理重点与驱动因素
文件和内容管理中,文件管理相对容易,内容管理因自然语言处理(NLP)技术不成熟而具有挑战性。其主要业务驱动因素包括法规遵从性要求、诉讼响应能力和电子取证请求能力以及业务连续性要求。
(二)管理目标与技术
实施文件和内容管理最佳实践的目标是确保高效采集和使用非结构化数据,实现结构化和非结构化数据的整合,并遵守法律义务、满足客户预期。内容管理涵盖组织、分类和构造信息资源的流程、方法和技术,元数据对于管理非结构化数据至关重要,其基于数据格式、可搜索性、自我描述性、既有模式、内容主题和需求等方面进行定义。档案包括纸质文件和电子化存储信息(ESI),只有部分文件能成为档案,精心管理的档案具有内容准确完整真实、背景信息完善、及时性、永久性和结构合理等特点。电子取证是对电子数据的获取和分析,大量数据存储在关系型数据库之外,非结构化数据格式多样,工作中的数据还包括结构化、半结构化数据,开源Schema.org等可用于数据管理。
十、参考数据和主数据
(一)管理目的与难点
参考数据和主数据管理旨在通过对共享数据进行标准建设来提高数据质量。在理论上,识别主数据及其作用存在一定难度;在实践中,落地实施面临较大阻力。主数据来源于生产系统,经过 ETL 处理,选择黄金数据并建设标准后应用到生产系统,涉及大量解析工作;参考数据并非来源于生产系统,拿来即可使用,有时被称为配置型的主数据。
(二)数据标准与评估
数据标准分为非主数据标准和主数据标准,主数据强调 “一数一源一标准”,共享的实体(如人事、财务等相关实体)和属性(重要且相对稳定的属性)的数据质量要求具备唯一性和准确性。评估主数据管理效果可通过衡量去除冗余数据的程度等方式进行,例如某央企对物料数据的优化。
(三)管理规划与步骤
启动主数据管理的常见驱动因素包括满足组织数据需求、管理数据质量、控制数据集成成本和降低风险等。主数据管理规划目标是确保组织拥有完整、一致、最新且权威的参考数据和主数据,促进企业内部共享,并降低数据使用和整合的成本及复杂性。在一个域内规划主数据管理,需要识别候选数据源、制定匹配和合并规则、建立识别和恢复未恰当处理数据的方法以及建立数据分发系统。主数据管理可在集团、省公司、市公司等不同层面进行,解决方法可采用最大公约数原则,即利用集团已有的数据,集团未做的部分由下级单位负责。
十一、数据仓库和商务智能
- 数据仓库基础概念:数据仓库(Data Warehouse,DW)在企业数据处理和决策支持中占据核心地位。它与 OLAP(联机分析处理)、DSS(决策支持系统)、BI(商务智能)紧密相关,是企业实现数据驱动决策的关键组件。数据仓库建设主要受运营支持、合规需求和商务智能活动的推动。其建设需遵循特定原则,如紧密围绕业务目标,从最终需求出发进行规划;进行全局性思考和设计,同时注重局部的行动和建设;持续总结经验并优化,避免一蹴而就。
- 数据仓库组成部分:数据仓库由集成的决策支持数据库以及用于收集、清理、转换和存储来自各类操作和外部源数据的软件程序构成。其中,数据的抽取、清洗、转换、控制、加载等操作过程是数据仓库建设的关键环节。在数据仓库的架构中,数据源是数据的来源,经过 ETL(抽取、转换、加载)过程处理后,数据存储在中央仓库(EDW)。此外,ODS(操作数据存储)、主数据、立方体、数据集市等部分是可选组件,企业可根据自身需求选择使用。
- 数据仓库建设方法:在数据仓库建设领域,Bill Inmon 和 Ralph Kimball 是两位具有重要影响力的思想领袖。Inmon 将数据仓库定义为 “面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合” ,其既可以是关系型的,也可以是多维的。虽然他们倡导的建设方法有所不同,但遵循的核心理念具有相似性:数据仓库中的数据源于其他系统,存储过程需对数据进行整合以提升价值,方便数据的访问和分析使用,组织构建数据仓库是为了让授权的利益相关方能够获取可靠的集成数据,数据仓库数据建设目的广泛,涵盖工作流支持、运营管理和预测分析等。
- 数据仓库数据加载与模型:数据加载是数据仓库建设的重要环节,包括历史数据加载、批量变更数据捕获(CDC)以及准实时和实时数据加载。历史数据通常进行全量加载,之后的数据加载则采用 T+1 的方式。在 CDC 技术方面,有多种方法可用于识别 CDC,其中全量方式的数据量最大。多维模型是数据仓库常用的模型,通常称为星型模型,由事实表和维度表组成。事实表包含业务流程的定量数据,如销售数据;维度表存储与事实表数据相关的描述性属性,用于为数据消费者解答关于事实表的问题,如产品在特定时间段的销售情况。
- 数据仓库与数据集市开发:在实际工作中,数据仓库和数据集市的建设顺序因企业而异。例如美国银行先建设数据仓库,之后再建设数据集市;而富国银行则采取了相反的顺序。一般来说,数据仓库 / 商务智能建设项目包含数据、技术和商务智能工具三条并行的构建轨迹。在数仓建设过程中,数据加载的工作量最大,约占数仓建设总工作量的 80%。以一个 20 人的数仓团队为例,其中 12 人负责 ETL 工作,这充分说明了数据准备和预处理在数仓建设中的重要性。
- 商务智能工具与 OLAP 实现方法:商务智能(BI)软件种类繁多,常见的有 PowerBI、Tableau、Microstrategy、Cognos、Kibanna 等,这些工具能够帮助企业更好地分析和展示数据。数据挖掘软件如 Rapidminer、Weka 等,主要用于从大量数据中挖掘潜在的信息和模式。二者的首要目的有所不同,BI 软件侧重于数据的可视化和分析,以支持决策制定;数据挖掘软件则更关注数据中的隐藏模式和规律的发现。OLAP 的实现方法主要有三种:关系型联机分析处理(ROLAP),通过在关系数据库的二维表中运用多维技术来支持 OLAP,星型架构是 ROLAP 环境中常用的数据库设计技术;多维矩阵型联机分析处理(MOLAP),利用专门的多维数据库技术实现 OLAP 功能;混合型联机分析处理(HOLAP),结合了 ROLAP 和 MOLAP 的优势。此外,数据仓库和商务智能的度量指标包括使用指标、主题域覆盖率、响应时间和性能指标等,这些指标有助于评估数据仓库和商务智能系统的运行效果和价值。
十二、元数据管理
- 元数据管理原则与概念:元数据管理遵循 “应归尽归,应收尽收” 的原则。从概念上讲,技术层面的元数据等同于业务层面的数据资源目录,但与业务层面的数据资产目录不同,强调 “目录之外无数据”。元数据最常见的定义是 “关于数据的数据”,就像图书馆中的目录卡片,用于描述和解释数据的相关信息。国际标准 ISO/IEC 11179 对元数据管理提供了一定的规范和指导。
- 元数据类型与来源:元数据通常可分为业务元数据、技术元数据和操作元数据三种类型。业务元数据主要用于描述业务层面的数据含义、业务规则等信息;技术元数据涉及数据的技术属性,如数据库结构、数据类型等;操作元数据则与数据的操作和处理过程相关,如数据的创建时间、修改记录等。元数据的来源广泛,包括业务术语、数据库的数据字典(可通过逆向工程获取)、服务器信息等,总计有 14+N 种来源。
- 元数据综合解决方案:元数据综合解决方案包含多个功能需求点。更新频次决定了元数据属性和属性集更新的频率,确保元数据能够及时反映数据的变化;同步情况关注数据源头变化后的更新时间,保证元数据与实际数据的一致性;历史信息涉及是否需要保留元数据的历史版本,这对于数据的追溯和分析具有重要意义;访问权限则通过特定的用户界面功能,明确谁可以访问元数据以及如何访问,保障元数据的安全性和合规性。
- 元数据存储库与管理功能:创建一个元数据存储库的数据模型,即元模型,它为元数据的存储和管理提供了结构化的框架。元数据管理具备查询、报告和分析等功能,其中血缘关系分析能够从下往上追溯数据的来源和流转路径,帮助用户了解数据的起源和演变过程;影响分析则从上往下评估数据变化可能对其他相关数据和业务流程产生的影响,为决策提供依据。主动型的元数据管理能够更及时、有效地应对数据环境的变化,提升数据管理的效率和质量。在软件方面,Apache Atlas 是一款常用的元数据管理工具,市面上也有一些商业软件可供选择,价格通常在 80 - 120 万之间。
- 元数据度量指标:元数据的度量指标用于评估元数据管理的效果和质量。元数据存储库完整性通过比较企业元数据的理想覆盖率与实际覆盖率来衡量,参考元数据管理范围定义的策略,确保元数据的全面性和完整性;元数据管理成熟度则根据组织在元数据管理方面的实践和能力进行评估,反映组织在元数据管理领域的发展水平;专职人员配备通过考察专职人员的任命情况、企业内的覆盖范围以及职位描述中的角色定义,来评估组织对元数据管理的重视程度和投入力度;元数据使用情况用于衡量元数据在企业内部的被使用频率和应用效果,体现元数据对业务的支持价值。
十三、数据质量
- 数据质量管理基础:数据质量管理与数据治理以及整体数据管理一样,并非一个短期的项目,而是一项需要持续进行的工作。建立正式数据质量管理的业务驱动因素主要包括提高组织数据价值和利用机会、降低低质量数据带来的风险和成本、提升组织效率和生产力以及保护和增强组织的声誉。数据质量管理应遵循重要性原则,优先关注对企业及其客户最重要的数据,根据数据的重要性和错误风险水平确定改进的先后顺序;实施全生命周期管理,从数据的产生、存储、使用到销毁的整个过程进行质量把控;注重预防,将重点放在预防数据错误和降低数据可用性问题上,而不仅仅是事后纠正;强调根因修正,深入分析数据质量问题的根本原因并加以解决。
- 数据质量理论与维度:关于数据质量存在多种理论,如 Strong - Wang 框架、Thomas Redman 在《信息时代的数据质量》中的理论以及 Larry English 在《改善数据仓库和业务信息质量》中的观点等。2013 年,DAMA UK 发布的白皮书描述了数据质量的 6 个核心维度:完备性,通过存储数据量与潜在数据量的百分比来衡量;唯一性,确保在满足对象识别的基础上,实体实例不被多次记录;及时性,反映数据从要求的时间点起代表现实的程度;有效性,判断数据是否符合其定义的语法,包括格式、类型、范围等;准确性,衡量数据正确描述 “真实世界” 对象或事件的程度;一致性,保证数据在不同系统或场景中的一致性。需要注意的是,维度的名称可根据企业的实际需求和业务特点进行自定义。
- 数据质量评估与改进:评估数据质量需要依据业务规则和技术规则。业务规则基于业务需求和目标制定,技术规则则与数据的存储、处理和传输等技术环节相关。数据质量改进常采用戴明环(计划 - 执行 - 检查 - 处理)的一个版本作为方法。新周期通常在现有测量值低于阈值、新数据集正在调查中、对现有数据集提出新的数据质量要求或业务规则、标准、期望发生变更时开始。数据质量问题的常见原因包括缺乏领导力导致的企业文化问题,以及数据输入、处理、系统设计和自动化流程中的手动干预等。数据剖析是一种用于检查数据和评估质量的数据分析形式,它可以帮助发现空值数、最大 / 最小值、最大 / 最小长度、单个列值的频率分布以及数据类型和格式等方面的问题,但它并非解决数据质量问题的直接方法。
- 数据质量修正与指标:执行数据修正一般有自动修正、人工检查修正和人工修正三种方法。企业可根据数据质量问题的类型、严重程度以及数据的特点选择合适的修正方式。有效的数据质量指标应具备可度量性,能够通过具体的数据进行量化评估;具有业务相关性,紧密围绕业务需求和目标;具备可接受性,得到相关利益方的认可;建立问责 / 管理制度,明确数据质量责任主体。在进行根本原因分析时,常用帕累托分析(80/20 规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等方法,深入挖掘数据质量问题的根源。数据质量团队的大部分工作集中于质量的度量和报告上,数据质量的高阶指标包括投资回报,用于衡量改进工作的成本与改进数据质量所带来的好处;质量水平,通过测量数据集内或多个数据集之间的错误、不满足需求或违反需求情况的数量和比率来评估;数据质量趋势,反映随着时间推移,数据质量针对阈值和目标的改进情况或各阶段的质量事件;数据问题管理指标,用于监控和管理数据质量问题的处理过程和效果。
十四、大数据和数据科学
- 数据科学基础:数据科学是一门综合性学科,它将数据挖掘、统计分析和机器学习与数据集成整合,并结合数据建模能力(这里的数据建模主要指算法),用于构建预测模型、探索数据内容模式。数据科学的发展依赖于多个关键因素:丰富的数据源,这些数据源具有展示组织或客户行为中隐藏模式的潜力;信息组织和分析技术,能够帮助领会数据内容,结合数据集针对有意义模式进行假设和测试;信息交付方式,通过对数据运行模型和数学算法,进行可视化展示及其他方式输出,以加强对行为的深入洞察;展示发现和数据洞察,将数据科学的成果有效地呈现给相关人员,为决策提供支持。
- 数仓与数据科学分析对比:数仓(数据仓库)和数据科学在分析方式上存在明显差异。数仓主要进行描述性分析,基于历史数据回答过去发生了什么以及为什么发生;而数据科学侧重于预测性分析和规范性分析,预测性分析基于预测模型推测未来可能发生什么,规范性分析则更进一步,对将会影响结果的动作进行定义,而不仅仅是预测结果。例如,在销售分析中,数仓可能用于分析过去一年的销售趋势和原因,而数据科学可以预测未来一段时间的销售额,并给出为实现目标销售额应采取的行动建议。
- 大数据特征与架构:早期,人们通过 3V 来定义大数据的特征,即数据量大(Volume)、数据更新快(Velocity)、数据类型多样 / 可变(Variety) 。在架构方面,湖仓一体是未来的发展方向,目前虽存在湖仓分离的情况,但像 Hudi、Iceberg 等技术的出现,为实现湖仓一体提供了支持。数据湖具有多种功能,它为数据科学家提供了挖掘和分析数据的环境;可以作为原始数据的集中存储区域,只需进行少量转换(如果需要的话);还能作为数据仓库明细历史数据的备用存储区域、信息记录的在线归档处,并且可以通过自动化的模型识别提取流数据。然而,数据湖也存在风险,如可能会变成数据沼泽,面临数据安全、数据质量和元数据管理等方面的挑战。
- 机器学习算法类型:机器学习是数据科学的重要组成部分,它探索学习算法的构建和研究。机器学习算法一般分为三种类型:监督学习,基于通用规则进行分类或预测,如将 SPAM 邮件与非 SPAM 邮件分开;无监督学习,通过寻找隐藏的规律进行数据挖掘,例如对客户行为数据进行聚类分析;强化学习,基于目标的实现来调整策略,如在国际象棋中通过不断尝试击败对手。以销售预测为例,“今年的销售额是否会比去年多(是,否,一样,不知道)” 这类问题属于监督学习范畴,因为有明确的分类标签;而 “今年的销售额会是多少” 由于结果具有无限种可能性,则属于无监督学习。规范分析比预测分析更进一步,它不仅预测结果,还定义影响结果的动作。在选择算法时,可以通过 lift value 等指标来判断哪种算法最好,Apache Mahout 是一个开源的机器学习库项目,可用于构建推荐引擎等应用。
十五、数据管理成熟度评估
- 评估框架概述:除了 DAMA,还有其他机构或组织提供数据管理成熟度评估框架。在我国,DCMM(数据管理能力成熟度评估模型)是常用的评估标准。这些评估框架通常将数据管理成熟度划分为多个级别,一般包括 0 级(无能力)、1 级(初始或临时级,成功依赖个人能力)、2 级(可重复级,制定了初级流程规则)、3 级(已定义级,建立标准并使用)、4 级(已管理级,能力可被量化和控制)、5 级(优化级,能力提升目标可量化) 。不同级别反映了组织在数据管理方面从无序到有序、从基础到高级的发展过程。
- 评估原因与意义:各组织进行数据管理成熟度评估主要有以下原因:监管要求,监管机构对数据管理提出了最低成熟度水平要求,组织需要通过评估确保合规;数据治理需求,数据治理过程中,为了规划和满足合规性要求,需要进行成熟度评估;过程改进的组织就绪,组织认识到改进实践过程应从评估当前状态开始,例如在部署主数据管理流程和工具前,评估自身的准备情况;组织变更,如企业合并等情况会带来数据管理挑战,通过评估可以制定应对规划;新技术的应用,技术进步提供了新的数据管理和使用方法,组织希望了解成功采用的可能性;解决数据管理问题,通过评估发现数据管理过程中存在的问题并加以改进。
- DCMM 评估标准细节:DCMM 包含 8 个大类、28 个子类和 455 项具体评估内容。这些内容全面覆盖了数据战略、数据治理、数据架构、数据标准、数据质量、数据安全、数据应用和数据生存周期等多个方面。通过对这些方面的评估,可以全面了解组织的数据管理能力,发现优势和不足,为组织的数据管理改进提供详细的指导。
- 评估流程与注意事项:在进行数据管理成熟度评估之前,应向利益相关方清晰地告知评估的期望。沟通内容包括评估的目的,让利益相关方了解为什么要进行评估;评估的方式,说明将如何开展评估工作;他们参与的部分,明确各利益相关方在评估过程中的角色和任务;评估活动的时间表,使利益相关方能够合理安排时间并做好准备。成熟度评估通常有 5 个步骤,在评估结束后,有时需要重新评估,这可能是由于组织内部发生了重大变化,如业务调整、技术升级等,或者是为了跟踪评估改进措施的实施效果,确保组织的数据管理能力持续提升。
十六、数据管理组织与角色期望
- CDO 的职责:2014 年,Dataversity 发布的研究概述了 CDO(首席数据官)的常见任务。CDO 需要建立组织数据战略,使数据相关的需求与可用的 IT 和业务资源相匹配;制定数据治理标准、政策和程序,确保数据管理的规范性和一致性;为依赖数据支持的业务提供建议和服务,涉及业务分析、大数据、数据质量和数据技术等领域;向内部和外部业务利益相关者宣传良好的信息管理原则的重要性,提高组织整体的数据管理意识;监督数据在业务分析和商务智能中的使用情况,保障数据的有效利用。
- 其他数据管理角色:数据管理专员属于业务角色,在数据管理过程中起着关键作用。此外,还有一些混合角色,需要同时具备业务和技术知识,其汇报部门根据组织情况而定,可以是 IT 部门或业务部门。数据质量分析师负责确定数据的适用性,监控数据的持续状况,协助进行数据问题的根本原因分析,并识别有助于提高数据质量的业务流程和技术改进措施;元数据专家主要负责元数据的集成、控制和交付,包括对元数据存储库的管理;商务智能架构师专注于商务智能用户环境设计,是高级的商务智能分析师;商务智能分析师 / 管理员负责支持业务人员有效地使用商务智能数据;商务智能项目经理则协调整个公司的商务智能需求和计划,将其整合为一个整体的优先计划和路线图。
十七、数据管理和组织变革管理
在数据管理领域,组织变革管理至关重要,它与数据管理的有效实施紧密相连。威廉・布里奇斯(William Bridges)和约翰・P・科特(John P. Kotter)等学者的理论,为理解组织变革提供了重要视角。
组织在面对变革时,常常会出现自满的场景。例如,在对监管变革的反应上,可能会出现 “我们还好,根据现行规定,我们还没有遭受罚款” 的想法,这种态度忽视了监管政策可能的变化以及潜在的风险;在应对业务变革时,“多年来,我们一直成功地支持这项业务。我们不会有事的” 这种观念,容易使组织固步自封,无法及时适应新的业务环境;面对技术变革,“这项新技术未经验证。当前系统很稳定,我们知道如何解决问题” 的看法,可能导致组织错过技术创新带来的发展机遇;而在对问题或错误的反应上,“我们可以指定一个问题解决小组对问题进行修补”,这种临时应对的方式,无法从根本上解决问题,也不利于组织建立长效的问题解决机制。
在信息管理方面,促使紧迫感产生的因素众多。监管变化可能带来新的合规要求,如果组织不能及时响应,可能面临法律风险;信息安全的潜在威胁时刻存在,一旦发生数据泄露等安全事件,将对组织造成严重损失;业务连续性风险关系到组织的正常运营,任何中断都可能影响客户满意度和企业声誉;商业策略的改变要求组织迅速调整数据管理方式,以支持新的业务方向;兼并与收购会导致数据环境的整合难题,需要有效的数据管理来保障平稳过渡;监管审计或诉讼风险会对组织的数据管理状况进行严格审查;技术变革推动着数据管理方式的更新换代,组织若不跟进就会落后;市场竞争对手的能力变化也会给组织带来压力,要求其提升数据管理能力以增强竞争力;媒体对组织或者行业信息管理问题的评论,可能影响组织的公众形象,促使组织重视数据管理。
约翰・P・科特认为,一个好的愿景具备明确性、动力性和一致性等重要特征。有效愿景充满想象,能描绘出一幅清晰的未来图景,让员工、客户等利益相关方对组织的发展方向有明确的认知;具有吸引力,能够增加各方的长期利益,从而激发他们的参与热情;具备可行性,目标现实且可实现,避免不切实际的空想;重点突出,为决策提供清晰的指导,使组织的行动更具针对性;具有灵活性,能适应环境的变化,允许个人根据实际情况采取主动并做出替代计划;可交流性强,能够在短时间内(如 5 分钟内)清晰地分享和传达,确保信息的有效传播。
科特还确定了有效传播愿景的七大关键要素。保持简单,去除行话、内部词汇和复杂句子,使信息易于理解;使用比喻、类比和例子,例如用一张简单的图来阐述复杂的概念,能更直观地传达信息;适用不同场合,根据不同的沟通场景(如电梯演讲、广播备忘录、小型会议、全员简报等)调整信息的表达方式;重复,重复,再重复,多次传达思想,使其被受众内化和理解;以身作则,重要人物的行为要与愿景保持一致,否则会破坏沟通的可信度;解释表面上的不一致,避免虎头蛇尾和未解决的协调问题,维护沟通的有效性;给予和索取,采用双向沟通的方式,增强与受众的互动,提高沟通效果。
有效描述变革最著名的方法之一是变革平衡公式(Gleicher 公式):C = (D × V × F) > R。其中,C 代表变革,D 表示对现状的不满程度,V 是对更好替代方案的愿景,F 是实现目标所采取的第一步行动,R 表示组织中的阻力。当 D、V、F 三者的合力大于 R 时,变革就会发生。这意味着,组织要想成功推动变革,需要让成员充分认识到对现状的不满,描绘出具有吸引力的未来愿景,并采取切实可行的第一步行动,同时克服变革过程中遇到的各种阻力。
在组织变革过程中,沟通至关重要。总体沟通计划和每个单独的沟通计划都应该有明确的目标和期望的结果,围绕支持所需结果构建关键消息,并根据受众和利益相关方的特点进行量身定制,选择适合他们的媒介进行传达。这样才能确保变革信息准确、有效地传递给相关人员,提高他们对变革的理解和支持度,从而推动组织变革的顺利实施。