面向人工智能开展数据治理的主要阶段与对象-CSDN博客

本文链接：https://blog.csdn.net/qq_22201881/article/details/140342860

大模型时代数据治理的难题
随着人工智能技术的飞速发展，大模型已成为推动 AI 应用创新的
重要驱动力。这些模型依赖于海量的数据、强大的算力以及复杂的算
法参数来支撑其庞大的智能体系。在这一过程中，数据可谓是大模型
的“灵魂”，塑造了其独特的“个性”。
大模型的智能程度与“个性”表现，促使人类社会生产力迈上新
的台阶，同时也带来了更大的挑战与危险。
1）数据“高量低质”
数据是人工智能技术的基石，是大模型训练和推断的原材料已成
为共识。然而，数据的数量和质量并不总是成正比。在来源上，模型
往往依赖于从互联网、社交媒体和公开数据库中采集的数据进行训练，
这些数据的来源和质量无法得到有效控制。在管理上，我们面对多模
态、非结构化数据缺乏理论与技术的支撑来客观评价数据质量的高低。
这些问题需要数据治理来解决，但传统的数据治理理论与实践更10
多的适配于面向 BI 时代的结构化数据，在人工智能所需要的非结构
化、半结构化、多模态数据上较为空白。为了应对这些挑战，开发出
更负责任、更可控的人工智能应用，面向人工智能的数据治理（DG4AI，
Data Governance for Artificial Intelligence）概念应运而生，它旨在通
过创新的数据管理策略和技术，解决 AI 发展中的痛点问题。
2）安全与隐私泄露频发
随着大模型对数据的依赖性日益增强，数据安全和隐私保护已成
为核心问题。在大模型的全链路研发、管理和应用过程中，其各个阶
段都存在着数据安全与隐私的问题和风险，包括但不限于数据的过度
采集、样本的偏差、数据的投毒等情况，存在危害个人、企业甚至社
会的安全与利益的巨大风险。
3）偏见与歧视随处可见
在科技飞速发展的背景下，人工智能伦理和道德的关注程度及应
对措施尚未完全跟上技术的步伐。自然语言处理技术的滥用案例日益
增多。其中包括压制不同意见、侵犯隐私与匿名性等。随着人工智能
技术驱动的应用逐步走向产业化，潜在的道德伦理问题成为备受关注
的焦点。
这些伦理问题可能源于系统意外产生，也可能是恶意行为者蓄意
开发。常见的负面后果包括因人口统计偏见而导致的不公平问题、面
向不同用户群体的服务性能不平等、对话者需求的错误识别，以及有
害内容与刻板印象的传播等。此外，许多应用只注重信息内容，对文
本作者及其信息的社会意义缺乏足够的意识与关注。11
DG4AI 的提出，是对现有数据治理体系的重要补充。它强调了数
据治理在 AI 研发全生命周期中的重要性，并指出了实现高质量 AI
应用的关键路径。这一概念的实践，需要跨学科的合作、政策的支持
以及技术的创新，以确保 AI 技术的健康发展，并最大化其对人类社
会的积极影响。（二）面向人工智能的数据治理的定义
对于面向人工智能的数据治理定义建立于对人工智能和数据治理
的共同理解之上，因此在这里我们先对几个关键概念进行明确：
人工智能：人工智能（AI，Artificial Intelligence）是一个与认知
科学/心理学、哲学、语言学和数学等学科进行了知识融合的计算机
科学，当前由于对于智能的定义存在困难，在学界并未有一个统一的
定义，但是从商业的角度来看，AI 意味着使计算机能够执行各种高
级功能（包括查看、理解和翻译口语和书面语言、分析数据、提出建
议等能力），达到帮助替代或超越人类的工作的能力。
数据治理：根据 IBM、标准要求、数据治理协会等研究（见附录
二）综合来看，数据治理主要是从组织层面对数据进行管理。其目的
在于确保数据的质量安全性。可指代为企业数据价值化开展的一系列
具体性工作，也可指代一系列数据管理活动的集合。
由此，我们可以认为面向人工智能的数据治理（DG4AI，Data
Governance for Artificial Intelligence）是指在人工智能应用中管理和控
制数据的过程与实践，用以确保数据的质量、可靠性、安全性与合规12
性，数据能够被准确地用于训练和部署 AI 模型，同时保护数据的隐
私和安全。
面向人工智能开展数据治理的主要阶段与对象
从组织层面开展数据治理工作方面来看，面向人工智能开展数据
治理的工作，主要包含以下四个阶段：

顶层设计阶段：
o 治理目标：确立数据治理的总体框架和战略目标，确保数
据治理与组织的整体战略相匹配。
o 工作重点：根据组织的业务现状、信息化现状、数据现状
和 AI 现状，设定组织中各机构和部门的职责、权力的利
益，定义符合组织战略目标的整体数据治理目标和可行的
行动路径。
数据治理组织保障体系搭建阶段：
o 治理目标：确保面向 AI 的数据治理得到必要的支持和资
源，包括人力、算力、算法、数据、技术和管理等支持。13
o 工作重点：分析领导层、管理层、执行层等利益相关方的
需求，建立健全面向 AI 数据治理的相关管理制度和标准，
并基于数据治理所需的专项能力和业务价值目标构建支
持面向 AI 的数据治理体系。
数据治理工程建设阶段：
o 治理目标：基于数据战略目标，结合 AI 数据治理的特点，
制定并执行数据治理实施计划，确保数据治理能够按照既
定目标和流程进行。
o 工作重点：包括数据收集、数据预处理/清洗、特征工程、
数据标注、数据划分、数据增强、模型训练、模型验证与
测试、模型推理等实施步骤。
数据治理运营优化与 AI 应用融合阶段
o 治理目标：提升 AI 应用的规模化落地效果，实现数据治
理与 AI 应用的良性互动。进一步，形成数据治理与 AI 应
用相互促进的闭环，实现数据价值的最大化。
o 工作重点：通过数据治理提升 AI 模型的拟合效果，同时
利用 AI 技术优化数据治理流程，形成良性闭环系统。
从面向人工智能场景下所需的数据来看，大致可分为原始的多模
态数据集、训练数据集、验证数据集、测试数据集和推理数据集。
从面向人工智能场景的工程建设阶段来看，可分为数据收集、数
据预处理/清洗、特征工程、数据标注、数据划分、数据增强、模型14
训练、模型验证与测试、模型推理等九个阶段。