一、谈“多模态”而色变的原因是什么?
数据治理领域,讲到多模态数据治理,大家普遍还是比较淡定的。谈‘多模态’而色变的主要原因,可能在于面对多模态场景下理论体系的缺乏、技术支撑能力的不足、AI工具的不完善以及数据融合场景难挖掘等困难,导致给本就需大量人工投入的工作增加更多的不确定性、复杂性和难度。
理论体系的缺失:现有的数据治理体系和框架(可进一步阅读:彻底掌握:主流数据治理标准及框架全景图)并未对多模态数据的处理和应用制定一贯的标准、规范,使得很多企业和研究机构在实际操作中面临诸多不确定性,如数据标注、数据存储和数据共享利用的标准化流程等。
技术支撑能力的不足:多模态数据治理涉及不同类型的数据,每一种类型的数据都有其特有的结构和特征,而针对不同数据需要不同的技术和算法。这些技术和算法(如卷积神经网络知识)往往需要较高的技术知识的积累以及资源的投入,这对中小型企业来说,其成本是相当高的。另外一方面,数据治理领域一般处于产业的下游,人们往往称其为“劳动力密集型产业”,通过投入人来完成的业务,为了控制成本,其技术投入本就不足,对人才的孵化也就不足。综合上,造成了理论体系相对完善,但技术支撑能力跟不上的局面。
AI工具的不完善:多模态数据融合的难点一致并未有效解决,虽然从理论上有很多的实现策略(关于融合策略的介绍,可进一步阅读:聊一聊多模态数据治理-DeepSeek加速AI落地),但现实中试错成本是很高的,整体性价比(资本层面的投入产出比)并不高。其不完善主要体现在 AI 工具在数据采集、清洗、存储、分析等环节中,需要复杂的配置和管理,且针对不同数据和场景,训练和推理过程中参数调整的要求并不完全一样,这对实施该项工作的企业来说是不划算的。
数据融合应用场景难挖掘:客户往往是想看到肉眼可见的效果的,但数据融合应用场景的挖掘和实现的效果是有挑战性的。因为这需要解决数据同步与对齐、语义差距和数据噪声等多方面的问题。虽然技术在不断的进步,但短期内能流畅对接存在难度。
二、现有的数据治理体系是否适用?
虽然多模态数据治理的实现囿于AI技术本身的难度和复杂度,但数据治理的理论体系是否能适用于多模态数据治理场景?我们不妨做从“顶层架构体系、数据治理的初衷以及实现的步骤以及AI本身在这个体系中充当的角色”等几个维度来探讨一下。
顶层架构体系:数据治理顶层架构体系参考EA、DAMA、DCMM等框架,由数据战略规划和实施的基础上,切入数据治理的目标、方向、范围、实施步骤和路径等。并充分考虑数据管控体系建设的方方面面,覆盖组织架构、制度规范、执行流程、人才培养、绩效体系、标准体系、数据文化、数据运营等内容。(关于如何构建组织数据管控体系,可进一步阅读:什么是数据管控体系)数据战略层面更多的解决的是企业业务战略所遇到的问题,一般是涉及企业的发展方向、资源配置、组织架构、核心能力等多个维度,比如组织核心优势的识别和打造、组织资源的评估和分配、企业发展方向的识别和构建等。对AI工具和技术的选择往往是为了业务战略的更加实现,是一个选择方案而已,并不是必选项。
数据治理的初衷:数据治理更多的是解决数据质量问题带来的误差。围绕数据质量提升,从数据采集、存储、清洗、标准选择、数据利用等多维度视角,构建数据质量评价指标,以实现有效数据利用带来的价值实现。比如留存率优化、埋点的选择等。其目的也是为了业务增值。多模态数据治理也围绕提升数据质量而进行的一项工作。
数据治理主要实现的步骤:数据治理的实施过程涵盖现状评估、目标制定、组织架构设置、方案设计(包括采集、标准、存储、清洗、共享等过程的流程设计、技术确定、架构设计等内容)、实施与开发、上线与运营、持续优化等步骤。多模态数据治理的实施也遵循这样的步骤,只是在各个环节增加了多模态数据治理的诉求,而这离不开AI技术的支持。(多模态实施各环节及关键技术分解,可进一步阅读:DG4AI:人工智能+数据治理,如何融合?)
AI扮演的角色:AI在结构化数据治理领域在数据质量提升、元数据管理和血缘溯源、自动化数据治理流程优化等领域已有非常出色的表现。多模态数据治理中,多模态数据融合和模型的训练推理将是重点关注的领域。(可进一步阅读:聊一聊多模态数据治理-DeepSeek加速AI落地)
从以上分析,窥见一斑,现有的数据治理体系还是适用的,只是在多模态数据治理中,如何将AI实施的过程以及AI工具融合到治理体系中,尚无工程化实践的经验和标准。这又将是一个新的探索领域。
三、多模态数据治理体系框架畅想
我们回过头畅想一下多模态数据治理体系的框架吧。大胆设想多模态数据治理遵循的框架是这样的:综合DAMA和DCMM等的优势,构建多模态数据治理体系框架。
遵从数据管理、数据处理和数据伦理的大原则下,由顶层设计出发,覆盖数据应用与服务、数据管理核心领域以及基础设施组织保障。形成一个有高层指导,有工具支撑,有理论指导以及组织保障的梯度模型。(AI和数据治理深度技术融合框架,请进一步阅读:DG4AI:人工智能+数据治理,如何融合?。详细介绍了融合框架、关键步骤、实施环节以及各环节重点技术)
数据治理是人工智能的数据基础,数据治理的目的是在业务价值驱动下提供高质量、有价值的大量数据,而人工智能本身是数据应用的一种实现方式,会延伸出多样化的商业模式,数据治理和人工智能密不可分,数据治理强调修炼内功,人工智能侧重数据应用。
站在数据治理和人工智能的侧面,从数据的产生到价值的挖掘,再到服务的提供,离不开大数据技术、人工智能技术,以及其他技术的应用,因此,面对一个新兴的技术,不必感到恐慌和不解,这就是一个技术而已,至于怎么用,要看业务。(人工智能在数据治理场景的技术应用,请进一步阅读:聊一聊多模态数据治理-DeepSeek加速AI落地)
四、多模态数据治理实施要点分析
从理论上解决了疑惑的基础上,我们看实施怎么拆解。数据治理实施遵循“自上而下”和“自下而上”的方法论。
“自下而上”的数据治理策略则更加注重实际业务需求和IT的对齐,强调一线员工的参与,通过激发员工的积极性和创造力,推动企业数据治理工作的深入开展。这种方法的主要特点是鼓励员工参与数据治理、引入敏捷的数据治理方法、强化业务部门的参与。
“自上而下”的数据治理策略通常从企业的顶层规划设计开始,由高层管理者制定总体框架和战略目标,强调全局性和统一性。这种方法的主要特点是制定数据治理的管控体系、建立统一的数字化平台、强化数据安全和隐私保护。
无论以上哪种方法,都强调数据治理实施的闭环管理。即均通过数据治理成熟度评估,实现对整体基础和诉求的合理评估;再通过制定数据治理蓝图,明确目标和差距;第三通过评估结果,制定切实可行的实施计划,推进落实;最后通过持续的监督,针对性的推进数据治理的水平,从而进一步推进数据治理成熟度能力。(数据治理执行流程设计遵循PDCA闭环逻辑,请进一步阅读:管控体系:执行流程设计)
结尾的话
多模态数据治理体系框架,我们做个大胆的畅想,希望专业的机构能够针对该领域给出更多的标准和指导。
本文来自公众号:数据那些事
更多数据治理相关文章:数据治理博客园 | 巨人肩膀