“
导语
在数字化转型浪潮与生成式AI技术突破的双重驱动下,银行业正面临数据体系与业务模式的深度变革。本文系统性阐述了下一代银行数据体系的四大演进方向:基于“人+智能体”的协作范式重构,通过Data Agent实现自然语言驱动的数据智能应用;构建“Data+AI”一体化平台,融合大模型工程化能力与数据基础设施;重塑"数据+知识"双要素资产体系,破解隐性知识孤岛难题;打造云原生智能湖仓架构,以统一元数据、统一语义和弹性资源调度支撑AI原生场景。这些变革将推动银行业从传统数据治理向认知智能跃迁,通过组织智慧沉淀、决策效率提升和生产力释放,重构金融服务价值链。腾讯云大数据体系的技术实践,为行业提供了从数据工程到智能应用的全链路解决方案参考。
”下一代银行数据体系演进
一、以“人+智能体”的服务和工作模式正在到来
银行业作为服务性行业,经营的核心理念是以客户为中心,服务客户需要投入员工资源和高效的服务手段。对于银行来说,都非常强调用数据。一个高水平的银行,一定是很高比例的员工在数据的帮助下开展工作的。数据驱动、AI驱动,特别生成式大语言模型在人工智能领域的的重大突破,使智能体(智能助手)参与企业经营和数据分析成为可能,这也进一步影响银行服务模式、员工工作模式、数据分析模式的转变。如何构建面向“人+智能体”的场景服务,开启“智能体”主导的人机协作范式,进一步释放组织数据和智能潜力,是银行业正在面对的问题。
以数据分析领域为例,过去数据工程师、数据开发人员是数据平台系统主要使用对象;目前产品经理、运营人员和业务分析师借助大数据自助分析技术、分析师工作台等大面积参与数据分析和数据挖掘;未来、Data Agent将成为人以外的数据平台使用者和创造者,这也预示着职业领域的潜在变革。Data Agent 的效率能否达到一般员工水平,关键在于能否高效利用企业私域数据和领域知识,如企业内部系统 ERP、CRM和实时获取事件数据、有效的企业知识库等。因此,面向Data Agent智能体的大数据平台体系的核心能力之一是对 Agent 的对接和支持。这不仅是技术变革,更是数据价值释放的新起点,意味着 AI 在企业数据处理和价值释放中的深度整合。
图一 “人+智能体”服务和工作模式
二、智能体+Data+AI融合体系
1、以数据智能和全员智能应用的范式的改变
目前,业务人员受限于技术门槛,80%的时间消耗在数据清洗、基础报表制作等低价值环节。比如,个人金融部需要等待数据分析师出具报告,才能调整投放策略;活动运营必须通过IT部门提取数据,才能验证方案。
传统模式下代码形态:当业务人员有新的报表需求时,如需要一张新的报表,或者对原来的报表做修改,需要提交需求申请。需求提交到科技部和软件研发中心后,由其安排人员进行开发。在此过程中,可能存在往复沟通,比如需求描述不够清楚,或者开发人员理解有误,经过开发、投产、交付等环节,形成完整的研发流程。
Data Agent模式下数据智能形态:通过大语言模型强大的自然语言理解能力,知识学习的能力,通过数据语指标、统一数据语义、结合面向AI数据治理的知识资产和数据资产、湖仓一体能力快速组织和开发应用。大模型基于自然语言的理解能力,把用户的问题确认清楚,利用NLP2Semantic2sql、text2semantic2sql、chatbi、智能体开发平台生成一段程序,直接就把报表开发工作在几十秒就做完了。将原来几天、几周的工作过程,变成一个准实时的过程。
这种由代码形态转变为以 Agent 为主体的自然语言交互范式和企业的人机协作模式,将从人类指导AI使用特定工具,升级到AI自主识别需求,并选择工具组合完成任务。
为了助推银行业智能体的落地和协助客户,结合腾讯内部智能体落地实践和经验,大数据产品团队快速推出了Data Agent开发能力框架:实现从数据准备、知识解析与向量化到数据洞察到业务价值,再通过智能体实现知识的透传,最终实现智能应用。
图二 智能体数据智能范式
在未来,大数据领域的AI Agent,将会具备通过数据反馈持续学习、进化迭代的能力。而不同部门间,也能通过调用共用的数据知识库,让信息在安全边界内实现跨部门流动。打破数据边界,释放沉睡在数据系统与员工经验中的决策价值。
这种将“个体智慧”转为“组织资产”的过程,会使企业不再依赖个别"超级员工",而是形成可迭代升级的集体智能。当企业能汇集员工智慧与业务数据,则更有易于做出优质决策。
2、以“Data Agent+Data+AI”一体化平台能力的建设
随着Agent多智能体的成熟,满足智能体数据范式的需要,新一代数据平台需具备面向AI能力融合的关键能力:用于将大模型的能力和数据工程能力进行整合和封装,通过产品化的方式支持数据取数、数据分析Data Agent、智能问答、数据科学和其他业务自助分析等多种应用场景。同时,支持企业现有数据系统和业务系统集成,实现大模型和企业业务流程的融合,从而通过大模型降低业务使用数据的门槛。
图三 Data Agent+Date+AI一体化思路
大模型工程化:是大模型落地实现包括Agent工程化、AI智能引擎、大模型适配与引擎调度等技术;
(1)Agents的工程化Agents是指具有自主性和交互能力的实体或程序,其可以感知环境、利用MCP(Model Context Protocol,模型上下文协议)进行决策和执行动作,以达到特定的目标
(2)AI智能引擎、包括自然语言交互分析能力、AI Search 的产品化能力、向量化等
(3)大模型适配与引擎调度包括LLM管理、知识库管理、记忆管理、提示词工程、工具管理和安全与权限等;
领域大模型是为数据和知识推荐技术的落实实现,主要包括知识图谱构建、AI数据资产构建、业务知识构建和模型微调等
Oneops一体化深度融合 DataOps、MLOps 与 LLMOps 能力,包括探索分析、流程编排、AI 开发以及智能运维、统一治理平台等多个模块;
大模型下的新基础设施包括湖仓一体底座包括湖仓一体、数据资产和知识资产的构建;统一元数据catalog等
三、以“数据+知识”的数据资产体系重塑
经过多年的数据仓库和数据湖的建设,显性的业务生产结构化数据逐步被治理和应用,比如客户信息、交易记录等;而隐性的知识依然散落在文档、报告、会议纪要中无法提取。比如业务流程、规则、专家经验。举个例子银行在审批贷款时,会使用结构化数据如客户信用评分、收入水平贷款历史等。同时信贷员还需依赖内部知识、行业经验、市场趋势分析和特定情况下的审批规则,这些知识或没有被整合到数据系统中、或因知识未被提取形成联动,这样可能就会出现系统根据结构化数据进行贷款审核、未能关联未被记录的风险因素导致本应拒绝的高风险贷款被批准。即便相关隐形知识大数据和大模型能力的应用逐步数字化,但数据资产和知识系统大部分分开的,孤岛情况依旧严重。
然而,Data Agent落地存在一个“数据+知识”双向融合的问题,同时银行相关领域大模型的落地,也离不开高质量的知识数据。无论是对模型的精调,还是基于数据构建的企业知识中台,才能实现业务场景的智能化。
针对现有数据资产面临的问题,业务需求不断变化和适应数据智能体业务发展的需求,提出一种全新的重塑数据资产的思路:构建人和AI都能识别的广义数据资产、构建统一语义层数据资产能力,增强数据平台已经治理好的ADS层、DWS层的资产,推动数据基础设施的认知升级,将传统的数据资产体系,升级重塑为“数据+知识”的新型生产要素。
图四 “数据+知识”资产体系重塑
基于统一语义、AI的数据资产建设和治理新解法:通过大模型、智能化手段实现资产建设、资产运营,包括知识体系、数据资产体系和资产评估体系;知识资产主要包括特征AI加工、指标自动生成和指标特征血缘等。数据资产体系包括库表资产、库表资产增强和库表资产适配特征;资产评估体系包括优化引擎、粒度智能识别、自动物化加速等。
最终通过统一语义能力,通过语义注册、动态映射、指标定义和指标管理、记录语义对象的使用链路与变更理智的指标治理,将知识资产和数据资产表达、共享、重用,同时被人和机器理解,构建人和AI都能理解的数据资产。
四、以“云原生”的智能数据湖仓体系构建
回顾银行数据体系建设、大概经过以下阶段:
1、信息化时代的企业级数仓 以 Oracle 、Teradata为代表的传统数据仓库实现了线上信息化从 0 到 1 的过程。
2、互联网时代数据湖 谷歌的三驾马车和 Hadoop 的出现,通过分布式架构在一定程度上解决了大吞吐量问题,企业得以存储和处理海量数据。
3、人工智能时代的湖仓混搭或湖仓一体 MPP数据仓库与Haddop数据湖混搭互联到基于开源的组装式 Lakehouse 数据湖仓登场,引入了表格式、 StarRorks 等更多引擎组件,实现了数据的实时计算、分析、ML的多引擎负载能力。
当前各大银行在数据仓库、数据湖、湖仓一体等架构演进过程中,各类计算资源(包括MPP集群、大数据YARN集群、业务及机器学习K8s集群等)形成资源孤岛,数据与服务分散问题仍然突出。结合AI Agent驱动的数据应用范式变革,以及"Agent+Data+AI"一体化平台对"数据+知识"资产体系重塑的需求,云原生智能湖仓体系已成为必然发展方向。
4、大模型时代的云原生智能湖仓体系
存算分离 实现存储计算解耦、统一调度实现资源统一利用;
统一计算 实现数据工程、数据科学、LLM(Data Agent)一体化;
统一元数据 实现数据一份共享,统一语义实现数据和知识的一份利用;
统一AIops 智能运维和环境适配。
云原生智能数据湖仓体系
统一存储:整合本地HDFS存储、面向对象存储、云存储、开放的文件格式和开放的表格式、多厂商存储的统一存储策略,实现低成本。
存储和计算解耦:形成存储引擎在选择上和管理上更灵活开放。
湖仓(Lakehouse)表格式:兼容多种数据处理框架和存储引擎,支持完全事务一致性、版本控制、模式演化、分区演化等
统一计算:计算引擎容器化部署:除弹性伸缩外,通过虚拟计算(Virtual Cluster)集群,实现异构计算资源的统一调度和管理
缓存机制:分布式缓存组件将热表数据缓存加速+计算引擎内置的缓存/物化等机制
统一元数据:多集群数据互访、多模态/多引擎支持、向统一标准演进,实现多厂商元数据体系的对接,达到一份数据共享的逻辑;
统一语义:通过标准化接口、AI语义生成和服务化,实现数据资产和知识资产的对接;实现资产的重塑和统一服务:
统一服务:包括批处理服务、流处理服务、数据开发服务、实时接口服务、消息队列服务的方式;
统一AIops运维:基于传统 ML 模型与 AI Agent,实现自动巡检、异常检测、参数调优等任务,提高运维效率并减少人力依赖;
当前,云原生智能湖仓逻辑异构的统一元数据能力、统一语义能力、统一资源管控和调度能力,将为银行业数据体系的重塑提供有力支撑。
面向未来、我们正处于数据体系变革的十字路口,AI Agent和 Data 与 AI 更紧密的结合进一步驱动银行业生产力的提升,生成式 AI 让基于数据洞察到自助决策的能力得以实现。
腾讯云大数据体系TBDS平台、Wedata平台、ChatBI平台、公有云平台将持续投入,让用户能够基于腾讯云大数据产品快速开发出各种 AI 应用,加速释放业务增长新动能。
作者:杜俭峰,腾讯金融云资深架构师
目前从事腾讯金融云国有大行行业解决方案工作,具有20年的IT咨询和建设经验,经历金融行业数据架构的设计、建设、发展和变迁过程。熟悉大数据技术咨询、平台架构规划、数智化解决方案,参与多家银数字化转型、云服务与大数据和AI规划与落地实施服务