人工智能大模型核心架构技术深度分析 2025

AI大模型-大飞

于 2025-03-24 09:23:34 发布

阅读量590

点赞数 5

文章标签：人工智能 AI AI大模型大模型 Agent 大模型入门大模型教程

本文链接：https://blog.csdn.net/m0_63171455/article/details/146467775

版权

深度好文，全文约2万字，阅读完成，预计需要2小时

一、人工智能大模型技术发展现状

(一) 技术升级夯实基础，应用生态蓬勃发展

生成式大模型在文本、图像、音频等各个领域下的能力飞跃，源于算力基础设施、高质量训练数据、模型架构和训练算法等各个方面的进步，由量变引发质变。

专用 AI 训练集群为研发百亿级参数规模以上的大模型提供了硬件基础。
预训练语料库的不断扩充为大模型提供了丰富的知识来源。
转换器(Transformer)注意力机制的应用改进了模型对长程依赖关系的建模能力。
指令微调技术强化了模型对用戶提问意图理解和反馈偏好的适配程度等等。

鉴于大模型技术栈的复杂性，大模型工程化平台成为大模型企业级应用的必备利器。它们整合了分布式训练框架、超参数搜索、模型压缩、性能评估、持续集成等自动化功能，极大简化了模型和应用开发流程。

我们实施大模型企业能力建设，应当结合业务需求特点选择合适的路径构建完备的基础和工程技术体系，降低使用门槛，加速大模型从研发到产品和解决方案的价值化过程，充分赋能业务。

1. 数算协同能力涌现，模型学习才识并重

(1) 算力设施

当代以深度神经元网络为代表的人工智能模型涉及高数据吞吐量的矩阵和张量运算，对算力先天具有较高的要求(见图 2)。

相比于早先在单卡或者单机上可以训练的深度网络模型，生成式大模型的参数规模高至数千亿，对计算设备的内存开销巨大，动辄需要上百张算力卡的支撑。

基于海量数据的训练过程同时意味着可观的计算时间开销，为了缩短训练周期，在实际的大模型研发中往往会进一步提高模型训练的并发度，推升算力集群达到万以上的规模。

这样的算力设施必须通过芯片、网络、调度框架等系统级的协同优化来实现对大模型的高性能支持。

同时，通过终端和云端的混合协同，有效降低推理成本并提升速度，云边端三级算力紧密结合将是解决大模型大规模落地应用问题的主流方案。

图2

目前通用的人工智能芯片以英伟达的 GPU 产品为主流。

其中英伟达的 Blackwell GB200 计算平台是一款基于最新 Blackwell 架构的超级芯片，旨在大幅提升 AI 计算性能和能效。

由两个 B200 Blackwell GPU 和一个 Grace CPU 组成。

B200 GPU 包含 2080 亿个晶体管，采用台积电 4 纳米工艺制造，具有高达 20 petaflops FP4 计算能力。Grace CPU 则配备了 72 核心的 Arm Neoverse V2 内核，可配置 TDP 高达 2700W。
GB200 在推理大语言模型性能上比前代 H100 提升了 30 倍，同时成本和能耗降至原来的 1/25。
GB200 配备了 384GB 内存，并通过 900GB/s 的超低功耗 NVLink 技术连接两个 GPU 和 CPU。内存带宽提高了 1.4 倍，内存容量提高了 1.8 倍，从而增强了处理生成式 AI 任务的能力。
GB200 利用第五代 NVLink 进行片间互联，实现了高效的通信基础，为大模型训练提供坚实的算力底座。

国产 AI 算力产业近年来取得了长足的发展。华为昇腾 910 对标业界先进 AI 产品，单精度浮点(FP32)计算速度最高可达每秒 99 万亿次，远超业界主流水平;半精度浮点(FP16)计算速度最高可达每秒 376 万亿次，整型(INT8) 计算速度最高可达每秒 752 万亿次。

在算力集群方面，Atlas 900 A2 PoDc 最大可扩展至包含 8000 昇腾芯片的 AI 算力集群，提供 3EFLOPS 超强算力，计算节点间通过 200G RoCE 网络互联，保障集群训练时的高线性度。

(2) 模型并行框架
在集群化 AI 算力设施的基础上，大模型的训练可以通过以下几种并行模式开展。

模型并行(见图 3): 由于当前的大模型规模往往远超单个计算设备的内存容量，将大模型切分到多个设备上成为一种自然的选择。

大模型从输入到输出由结构相似的算子层级连接堆叠而成，形成模型的深度;在每个层级上的计算通过众多并发的神经元节点运算实现，形成模型的宽度。

相应的，模型可以在宽度和深度两个方向上进行切割。张量并行是宽度方向的切分，它基于矩阵运算分解的数学原理在模型的层内进行分割，形成的单个子模型跨越完整大模型的所有层级，但只包含每个层级的部分运算。

流水线并行采取基于深度的切分，将大模型的不同层级拆解到各个计算设备并通过流水操作的方式形成各个层级运算的并发执行。

相对于流水线并行中分布式数据交换主要发生在承载相邻层级的计算设备之间，张量并行中各个计算设备之间均产生大量的数据交换，对数据交换的带宽要求更高，所以主要应用在一机多卡的服务器节点内部的并发实现。

图 3:大模型训练的并行模式:模型并行

数据并行(见图 4):

这种模式下，数据被拆散分配到位于不同计算设备上的模型实例来参加训练过程，设备相互之间定期地就训练所得的模型参数或者参数优化的梯度值进行同步，保证所有设备上的模型状态保持一致。

数据并行一般要求每个设备上的训练实例储存和维护完整的模型参数和状态，所以并不能节省 AI 算力设备的内存开销。

零冗余优化器(ZeRO - Zero Redundancy Optimizer)支持将模型的参数、梯度值和优化器状态划分到不同的进程，允许每个设备的训练实例只储存模型的一部分，在训练过程中每个训练实例动态地从其他设备通讯获取需要的模型参数和梯度值来完成本地的训练计算，从而极大提升数据并发模式下的内存使用效率。

图 4:大模型训练的并行模式:数据并行

混合并行(见图 5): 在实际应用中往往综合模型并行和数据并行等多种策略的组合，以充分利用多个维度的并行能力，实现取长补短。例如采取数据并行+流水线并行+张量并行的模式可以充分利用算力资源和通信带宽达到兼顾模型的内存扩展性和训练加速的目的。

图 5:大模型训练的并行模式:混合并行

目前主流的 AI 计算框架生态均已支持以上全部或者大多数的并行训练模式。全球来看，典型的如 PyTorch+DeepSpeed 生态和 TensorFlow+Mesh- TensorFlow 生态。

国内来看，近两年国内厂商推出的 AI 框架市场占有率也正稳步提升。百度飞桨在 2023 年针对于大模型开发新发布了 PaddleFleetX 开发套件，其核心技术包括全场景分布式并行策略、分布式训练优化技术和高效的大模型分布式推理与部署方案，已经具备可观的开发者认知度。

华为的昇思 MindSpore 框架充分考虑大模型开发时可能会遇到的问题，通过软硬件协同优化，实现一行代码即可完成模型自动切分、分布式并行计算，将大模型开发并行代码量降低 80%、系统调优时间下降 60%，成为国内最活跃的大模型开源框架之一，在科研领域广受认可。

(3) 训练数据

训练数据的多样性、规模和质量，对模型能力的提升起着关键作用，被广泛认为是 AI 大模型竞争的重要因素。

在所有的大模型训练数据集中，语料数据的规模遥遥领先，有力地支撑了语言大模型的快速发展。语料数据可来自网络文本、书籍、文学作品、新闻、媒体数据、社交媒体数据和公共数据集等多样性的渠道。

这些渠道提供的数据涵盖众多不同语言样式和主题，非常有助于大模型通用能力的学习。

网络文本: 互联网上的大量文本是大语言模型的主要数据来源。其内容包括但不限于网页信息、博客文章以及维基百科等，这些数据可以帮助模型学习到丰富的语言样式和广泛的主题。
书籍和文学作品: 书籍和文学作品是另一个重要的数据来源。这些文本提供了大量的语言表达和文化背景，有助于模型学习到更多的语言规律和风格。
新闻和媒体数据: 新闻报道和媒体文章数据可以涵盖各种主题和领域，有助于模型学习到与时俱进的语言表达和话题。
社交媒体数据: 社交媒体平台上的数据，如推特、微博、脸书等，也可以作为大语言模型的数据来源。这些数据通常包含了大量的实时文本，反映了当前的社会和文化动态。

此外，还有一些收集整理好的公共文本数据集可供使用，例如以英文语料为主的 Common Crawl、Gutenberg Project 等。中文语料方面，智源研究院发布了大规模、高质量数据集 WuDaoCorpora，悟道文本数据集采用 20 多种规则从 100TB 原始网页数据清洗而得，开源数量约 200G。

上海人工智能实验室也联合大模型语料数据联盟构建了“书生·万卷”数据集，其包含文本、图文、视频三部分数据，数据总量超过 2TB。

当前，行业普遍认为数据规模与大模型的性能高度相关。数据规模的增加可以提高模型的性能，帮助模型覆盖更多的知识和规律，从而学习到更丰富的表征结构和推理逻辑，生成更佳准确、符合审美观的内容。

同时，大规模的数据亦有利于提升模型的泛化能力，加强模型对于不同主题和领域表达的适应性，提高模型在新数据上的泛化性能。

但是，更大的数据规模也可能导致训练时间和计算资源的增加，因此在考虑数据量时，也要权衡其与训练时间及计算资源之间的关系，在给定的计算力下，精确匹配语料规模和模型的参数规模。

在数据驱动的模型训练中，数据质量同样需要给予足够的关注，以避免模型在学习过程中受到误导，获得偏见信息，降低模型的整体表现。尤其是在处理大规模数据时，这种情况更加明显。大规模数据往往包含各种噪音和

冗余信息，例如 HTML 标签、广告信息、链接等。此外，数据中也可能存在重复内容、相似页面，或是特定主题和特定地域的偏好数据偏差。

这些质量低下的语料加入模型训练，得出的结果可能比不使用这些语料还要差，过多的重复数据甚至在训练过程中可能导致模型陷入无意义的局部最优。

为了解决这些问题，需要采取一系列的数据处理步骤，以降低这些因素对模型训练的负面影响。具体步骤见图 6。

图 6:大模型训练数据处理流程

数据清洗: 通过使用正则表达式或其他文本处理工具，来去除数据中的特殊字符、空格、标点符号等无关信息，从而确保数据的干净整洁以及一致性的方式。

数据去重: 采用哈希算法或者其他去重技术，对数据进行去重处理的过程。这一过程中，通常通过比较数据的哈希值或者特征向量来判断数据是否为重复数据，然后删除那些重复的数据。

隐私过滤: 对于包含敏感信息的数据，如个人身份信息或机密数据，可以采用数据脱敏、加密或匿名化等方法来保护隐私。例如，对姓名进行脱敏处理，将真实姓名替换为虚拟的名称。

数据分词: 对于文本数据，可以使用现有的分词工具或自然语言处理库，将文本分割成有意义的词语。常见的分词方法包括基于规则的分词和基于统计的分词。

通过上述步骤，可以消除重复数据，还能清洗和过滤隐私信息，并进行分词处理。此外，构建高质量的训练数据集还需注意均衡调节各种形式语料的混合比例以保证模型的通用和泛化能力。

(4) 模型架构

当前主流的生成式大模型架构以转换器(transformer)结构为核心单元组件(见图 7)。

转换器能够并发地接收长序列数据输入(比如长文本)，基于对当前数据序列的分析自行判断每个数据元素与其他任意元素的相关性，并根据这些相关性权重(也即注意力)进一步加权计算和提炼出数据特征表示，因此也被称为自注意力机制。

转换器的自注意力机制使能神经元网络并行处理长数据序列，一方面大幅提升了计算效率，另一方面通过对任意相对距离间的元素进行一视同仁的相关性建模，能够有效的捕捉到、长序列中数据元素间的长程依赖关系，从而极大的提升模型的理解和识别能力。

转换器机制在 2017 发布后在各种自然语言处理(NLP)任务上都取得了令人瞩目的成绩，并逐渐推广到计算机视觉等领域，成为目前大模型的基础结构。

图 7:Transformer 架构，包含编码器(Encoder)、解码器(Decoder)和注意力机制(Attention Mechanism)

大模型按照模型架构划分，又可以分为单体模型和混合模型。单体模型采用单个深度神经元网络，通常使用稠密性网络结构，对于任意任务输入每个网络节点都参与模型的计算，所有网络区域都被激活，计算量和通信量比较大。

目前业界大多数大模型采用单体结构。例如 OpenAI 推出的 GPT-3 拥有 1750 亿参数的超大规模网络，包含有 96 层转换器结构，利用了多头注意力机制、前馈神经网络等技术，发布后成为生成式大模型的标杆性产品。

ChatGPT 的模型结构据称和 GPT-3 类似。

混合模型采用多个相对独立的神经元网络，相当于将多个相对较小的模型组合为一个大模型，避免模型越来越大，训练样本越来越多，每个样本都需要经过模型的全部计算所导致的训练成本的平方级增长问题，因此也称为混合专家模型(MoE-Mixture of Experts)。

对于单个任务输入来说，一般只需激活一部分小模型进行计算，这样就节省了计算资源。

为了确定一个任务输入需要激活的小模型，混合模型机制引入了一个决策门的机制以生成要激活的小模型索引，因此在控制方面增加了复杂度。

谷歌的 Switch Transformer 是混合模型的典型代表。

目前生成式模型的佼佼者 GPT-4 据悉也采用了混合模型的 MoE 架构，对后续超大模型的进一步发展可能起到相当的导向效应。

(5) 训练算法

生成式大模型在通用和领域专属知识上强大的建模和表达能力、对于使用者指令要求良好的理解和跟随能力、对生成内容的合法合规及伦理价值观对⻬的保障，需要历经预训练、再训练、监督学习微调、奖励模型训练以及强化学习等一系列的训练过程来予以实现，见图 8。

图 8:大模型训练方法分类

预训练和再训练: 预训练是大模型成功的基础。它通过大规模的数据来训练模型，使其学习语言的语法、语义和世界知识，在自然语言处理、图像、多模态等广泛的领域均取得了显著的成效。

预训练主要采取自监督学习的方式，通过算法自动生成模型训练需要的输入、输出对，而无需对海量数据

进行人工标注，从而具备非常好的数据扩展性。例如，语言大模型的自监督预训练随机地隐去输入文本中的部分字词，要求模型预测文本中缺失的部分，再将预测结果同隐去的内容做比较，自给自足地形成监督信号指导模型学习上下文语义知识。

而再训练是在通用预训练模型的基础上，加入领域数据对模型做进一步的预训练。这一步骤对于商业银行的大模型应用非常重要，因为它将通用的预训练模型转化为金融领域专属工具，使得大模型对于金融领域的问题和任务更加精确和可靠。

监督学习微调: 经过预训练的大模型具备丰富的知识，但除了自监督学习中的补全任务外没有其他解决问题的能力，需要使用有标签的数据集进一步调教。

生成式大模型接受自然语言的指令来理解任务要求，必须保持良好的指令跟随能力，使得指令微调成为其重要的训练步骤。指令微调采用监督学习的方式，训练数据集包含众多的输入、输出对。

输入由任务指令和具体任务的场景信息组成，输出则是期望的答案样例。

微调方法可以根据不同的目标和资源进行选择，例如对大模型的全量参数进行微调训练，或者冻结原始模型的主要参数只对部分参数进行训练。

低秩适配(LoRA-Low Rank Adaption)是一种新型的轻量化微调训练方法。

它将训练过程中模型每一层级中的参数变化值建模为一对约简的矩阵，通过训练简化后的矩阵参数的方式实现对模型的增量训练，而不改变原模型的参数，可以极大地降低训练的资源开销，在大模型的微调训练中获得越来越多的应用。

奖励模型训练: 奖励模型用于评判大模型的输出是否符合人类偏好和

价值观，是训练大模型生成内容保持价值对⻬的辅助模型，主要采用监督学习的方式基于大量的人类偏好数据拟合而成。

偏好数据集的构建可以利用已有的监督学习微调后的大模型，对相同问题生成多个不同的答案，再由标注员按照预定义的指导原则对回答进行人工偏好排序。

训练过程往往使用配对损失函数，最大化偏序在前的回答和偏序在后的回答之间的分数差异，最终促使奖励模型成功地模仿人工评判来对大模型的输出内容进行标量化打分。

强化学习: 强化学习是一种动态最优策略的学习方法，它让智能体在不断地与环境交互的过程中，通过观察环境的状态、选择合适的行动、接收环境的奖惩反馈和更新自己的策略，来逐渐提高自己的行为性能以达成优化目标。

基于人类反馈的强化学习已成为一种主流的大模型价值对⻬方法。它在训练过程中利用融合了人类专家知识的奖励模型对大模型的输出内容进行自动评分，针对评分不佳的回答采取用强化学习中的近端策略优化技术对大模型的内容生成策略进行迭代优化，最终实现大模型内容生成和人类价值观的对齐。

在经过以上所有训练步骤后，大模型成为兼具常识和相关领域专业知识、沟通表达流畅并能坚守伦理价值底线的得力助手，能够切实帮助相关领域的从业者全面提升工作效率。

(6) 模型轻量化技术

任何技术的繁荣都离不开社会化创新。大模型要走向千行百业的普及应用，势必要降低使用成本，在实践中主要有以下几种轻量化、小型化技术路线。

剪枝: 深度神经网络结构中有着大量的冗余参数。在推理过程中，往往仅有少部分的权值参与有效的计算对推理结果产生主要影响。剪枝方法(见图 9)通过把网络结构中冗余的权值、节点或层去掉，减少网络的规模，降低计算复杂度，让模型在推理效果和速度上达到平衡。

剪枝完成后往往需要基于原训练集上做一定的微调，以避免由于网络结构变化而出现的性能下降。

图 9:模型轻量化技术:剪枝技术

量化: 其基本思想是将神经元网络的权值、激活值等从高精度数值类型转化成低精度类型，例如将 32 位浮点数转化成 8 位整型数，以同时降低模型的内存和计算开销。

其中，整数量化将浮点数值截断或四舍五入到离它最近的整数,再统一缩放到一个值域范围内，简单直接但可能造成较大误差。对齐量化在整数量化的基础上，进一步将小数部分单独量化，可得到更高精度。

自适应量化根据数据分布状况，使用非均匀刻度来量化，例如在权值分布密集的值域区间采取较精细的刻度以提高表达的精确性。混合精度方案综合考虑模型精度和效率，只对部分参数层进行量化，重要层保持浮点运算。

量化技术已广泛用于各种深度神经网络的部署优化。

知识蒸馏: 通过训练一个小模型去模拟一个大模型的行为，使小模型也获得类似大模型的知识和泛化能力，从而实现模型压缩和轻量化部署(见图 10)。

图 10:模型轻量化技术:知识蒸馏

主要方法是利用大模型的最终输出作为软标签，以此为目标来监督小模型的学习过程;或者逐层提取大模型的中间层输出作为小模型对应层的监督信号来分层次进行知识迁移。知识蒸馏可以在保证一定精度的前提下获得较大的模型压缩率，但需注意可能导致的模型过拟合等问题。

实践中可以综合使用以上方法，充分发挥各项技术的优点，同时控制各项压缩对模型精度的影响，达到实用的部署效果。

2. 提示引导巧用模型，沉淀提炼应用范式

(1) 提示工程

生成式大模型依据输入的非结构化自然语言指令来执行任务，在极大地降低使用⻔槛的同时，也为大模型提供了无限的问题描述空间，使其具备了万能解答器的潜质。但也因为模型输入形式极高的灵活度，使得大模型输入的设计和组织富有技巧性。

对于同样的问题，有经验的大模型使用者可以高效地引导模型按照预想方式执行任务，从而保障大模型应用的可控性、连贯性和一致性;而不熟练的使用者则可能因为指令表述不当，导致模型产生无效或错误的输出。为了帮助用戶更好地使用此类大模型，提示工程应运而生。

提示工程在输入指令前添加提示语句，以提供额外的上下文、限制条件等信息，引导模型准确理解指令意图和问题解决途径，从而大幅提升模型的应答效果。

针对大模型的提示语设计模式可以分为四类:输入输出提示、思维链提示、一致性提示和思维树提示，见图 11。

图 11:大模型提示语设计模式

输入输出提示(IO Prompting)是一种最基本的、也是目前使用最广泛的提示方法，它只需要给出一个描述任务的自然语言指令，以及零个(Zero-Shot Prompting，即没有示例)或多个示例(Few-Shot Prompting)，来让大模型理解任务的目标，并生成合适的输出，见图 12。

图 12:提示模板示例

思维链提示(Chain-of-Thought Prompting)在输入输出提示的基础上，提供了多步推理的逻辑链，用以指导大模型按照提示的思路解决问题并展示每个步骤的过程性输出，特别有助于解决依赖深层次逻辑思维的任务。

自洽式思维链(Chain-of-Thought Prompting Self-Consistency)是思维链的扩展，其基本思想是:一个复杂的问题可以有多种不同的解法，即多条思维链，而这些思维链最终都应该得到相同的正确答案。因此，自洽式思维链通过多次采样生成不同的思维链，并选择最一致的答案作为最终结果。

这种方法可以降低大模型单次采样时可能出现的随机性和错误性，提高在复杂推理任务上的准确性和可解释性。

思维树提示(Tree-of-Thought Prompting)通过提供思维的树形逻辑结构来引导模型的解答生成过程。

它以主题核心观点为根节点，逐层展开子观点和论证，形成前后递进、多方面拓展的树形结构。在交互使用中，用戶可以按照思维树的形式逐步给出提示语句，引导模型的生成更加全面、深入。

相比线性的思维链，思维树提示以其广度和深度可以更充分地引导模型进行多⻆度、多层次的思考，尤其适合需要综合考量各方因素的决策、规划、论证等生成式任务。

(2) 大模型应用模式

相对于传统深度网络模型需要通过微调训练来适配任务，大模型通过提示词工程可以在不改变模型本身的情况下完成面向场景的对⻬，极大地解放了应用层面创新和开发的活力，催生了一大批基于大模型的 App。

图 13:大模型应用模式:直接 API 调用

直接 API 调用是目前最普遍的大模型应用模式，见图 13。App 接受用戶请求，经过一定的处理之后调用大模型服务接口取得答案后反馈用戶。

由于大模型服务本身是无状态的，用戶会话的上下文往往需要应用来维护，当下常见的聊天对话窗口式的 App 基本是这种模式。

面向特定领域和任务的应用, 还会通过提示词工程预制好提示词模板，对用戶的输入根据模板加工为提示语后再调用大模型服务，以取得最佳的大模式生成结果。

在许多实际的任务场景中，尤其是面向银行等行业、企业专属领域的应用，往往需要结合私域的知识和数据支撑来寻求专业和保鲜的答案，或者需要和环境进行互动来构建综合解决方案，从而推动了检索增强生成 (Retrieval-Augmented Generation)和 AI 智能体(Agent)两种大模型应用范式的演进。

检索增强生成是一种知识密集型任务的应用模式，通过语义检索机制赋予大模型动态获取外部知识的能力。该模式下的系统通常由三个组成部分构成:大模型、知识源和语义检索模块(见图 14)。

对于输入的问题，系统首先调用检索模块，从知识源(如百科网站、企业知识图谱、文档库等) 中找到相关的支持性内容，然后将这些内容与原输入联合在一起提交给大模型生成答案，作为最终的系统输出。

检索增强生成可以利用最新知识和信息进行内容生成，无需重新训练大模型，在外接数据方面具有极佳的可扩展性。

生成的结果事实一致性好，鲁棒性和可解释性强，特别适合对内容质量高要求的企业场景。随着知识源和语义检索配套技术(如:向量数据库、文本嵌入模型等)的跟进发展，这一应用模式具有广阔的前景。目前公有云上

最具代表性的产品为微软 New Bing 的聊天式问答。基于私域知识的检索增强生成应用也已开始在商业银行落地和推广。

图 14:检索增强生成(Retrieval-Augmented Generation)技术

AI 智能体是一类能够自主完成任务的系统，可以由生成式大模型和一套可以调用的外部工具集构成。工具赋予智能体实施行动并取得反馈的能力。例如在软件系统中，工具集可以是一系列服务 API 接口;在实体机器人领域，工具可以是感知仪器和运动执行器。

大模型依托前述的提示工程技术，对输入问题进行理解和任务规划、确定使用工具的顺序和实施方案(例如: 确定服务调用需要的入参)、定义每个步骤成功或失败的标志，进而调用工具执行完成全过程。

智能体是大模型应用的高级演化方向，也是实现通用人工智能的重要方法之一，智能体为当前最被看好的大模型应用方向，多家头部企业产品均朝智能体方向演进，智能体依赖于多步拆解执行，需要大模型在智能体应用中的错误率降至个位数才能够独立完成工作，当前整体受限于当前模型能力，智能体仍未出现规模化应用。

(3) 应用开发工具

在生成式大模型热潮的推动下，应用开发工具生态获得了长足发展，形成了功能全面的系统化开发框架，如 LangChain、LamaIndex、Dust 等。这些工具不仅支持自然语言处理能力，也逐渐开始支持多模态能力。在易用性和集成度方面的进步也很明显，普遍采用了模块化和流水设计，大幅降低了工具的上手难度，提高了使用灵活性，配合无代码工具使非技术人员也可以参与应用开发。

以开源社区最为流行的 LangChain 为例，应用开发框架主要从以下几个方面支持高效的开发工作。

一是在模型方面，提供了标准的模型调用接口，支持接入多种流行的大模型产品，便于开发者开展模型选型和调用。
二是在提示工程方面，提供了多种类型的提示模板(Prompt Template)类库，极大地简化了提示语的构造和处理。
三是集成了会话记忆模块，用于回溯和管理之前的问答等任务记录，方便开发者为生成式大模型提供至关重要的上下文背景信息。
四是为智能体应用准备了全面的工具包，智能体应用可以根据用戶输入自主选择使用哪些工具。
五是提供了文本索引功能，极大提高语义检索的运行性能。六是提供了提示工作流和模块组装的标准接口，助力复杂应用的快速构建。

3. 全栈开发集大成者，综合平台化繁为简

大模型及其应用的开发涉及数据工程、模型选择、提示词工程、服务编排和应用部署等复杂的流程和技术栈，对开发者的知识和技能水平要求很高，同时也需要大量的时间和资源投入，良好的开发框架和综合化平台的支持已经成为必不可少的基础设施。

传统人工智能开发平台，如 AWS SageMaker，Azure ML，ModelArt 等基于 MLOPS 理念提供了数据管理、模型训练、版本管理、超参数调优、可视化分析、应用部署等一系列的功能和服务，帮助开发者简化和加速人工智能开发过程。

大模型应用快速发展的背景下，这些平台也在积极推动技术升级，如 SageMaker 对前沿大模型的集成和 Azure ML 的大模型优化工具包等。此外，大模型技术浪潮也催生了一批新型的综合化平台，比如 HuggingFace，Fast.AI 等。

相对于传统平台，这些平台更加迅速地集成和提供丰富的预训练大模型和领先的大模型应用开发工具，也形成了更开放协作的社区文化。以下对代表性的新型大模型开发平台逐一简单介绍。

(1) HuggingFace
HuggingFace 是一个开源大规模机器学习平台，提供了从数据准备、模型选择、训练调优乃至部署应用的一站式支持，具有模型丰富、使用简单、社区活跃等特点，是目前最成熟的开源大模型开发平台。

平台已收录超过 30 万个经过预训练的自然语言处理、计算机视觉、语音等领域的各类模型，支持开发人员便捷地在模型库中搜索和调用需要的大模型。

平台还提供大规模的标注数据集，支持一键加载使用。在此基础上，HuggingFace 整合了模型训练、评价、部署工具。

平台内置了 Transformer 模型的应用编程接口，支持主流深度学习框架，让研究人员轻松地将模型应用到下游的 NLP、CV 等具体任务中。Evaluate 库可根据不同目标、数据集和模型支持不同类型的评估。算力资源方面，开发者可以在平台租用 GPU 的集群资源进行大模型的训练，并通过平台发布模型应用或 API 服务。

(2) 百度千帆

百度千帆是面向中文的开源大模型平台。它为用戶提供丰富的中文 NLP 模型和数据集，以及全套的模型训练、评估、部署工具。百度千帆拥有大规模的预训练语言模型库，包括 ERNIE、BLOOM、Llama 在内的各种模型结构，都经过了中文 corpus 的预训练，可以直接应用于文本理解、对话、翻译等通用任务。

用戶也可以基于平台提供的数据集，使用 PaddlePaddle 框架对模型进行进一步的微调优化。在支持模型训练的同时，千帆平台还提供在线的模型评测功能，用戶上传训练好的模型，选用合适的测试集即可自动生成评测报告。利用 Paddle Hub 工具，用戶可以便捷地使用模型，实现模型部署，并提供预测服务。

(3) ModelZoo
华为推出的大模型开发平台 ModelZoo2，为大模型开发者提供了全方位的支持与服务。它支持多种深度学习框架，如 PyTorch、TensorFlow、 MindSpore 等，以及多种硬件加速器，包括昇腾系列处理器、GPU 等，使得模型的训练和部署更加灵活和高效。平台的模型库目前已经接入了主流的大模型，如盘古系列、Baichuan、Llama、GLM 等，覆盖视觉、语言、多模态等广泛的任务类型。

用戶可以在模型库中搜索、下载和上传各种大模型，查看模型的详细信息和性能指标，通过统一的 API 便捷地调用华为云或者第三方开源的大模型。

此外，平台还提供了完备的开发工具链，支持模型转换、优化、诊断等高阶功能，以提升模型的性能和资源使用效率;同时预置了丰富的提示语模板，以方便用戶快速构建自己的大模型应用。

4. 模型适配金融领域，能力建设多管齐下

以大模型为代表的新一代人工智能技术正在成为数字经济发展的新动能。各大商业银行纷纷布局人工智能技术能力的迭代升级，积极探索和推动大模型在各业务领域和场景的应用。

图 15:大模型在企业的适配模式及落地应用场景

按照能力的专业度水平划分，大模型在商业银行的使用有基础大模型、行业大模型、企业大模型、任务大模型四种形态，见图 15。

基础大模型是基于海量数据进行训练的通用模型，具有很强的通识能力，可以直接支撑多种下游任务，但由于缺乏金融专业知识，在银行业场景下发挥作用有限。行业大模型基于基础大模型和银行业领域数据进行再训练，可以解决具备行业属性的一般性问题。

对于有较多定制化问题需求的银企，可以在行业大模型的基础上进一步结合企业私域数据训练具备个性化特点的企业大模型，或者面向特定的专属问题结合任务数据微调训练任务大模型，定向攻克高价值重点业务场景。

在落地策略上，大型商业银行业务覆盖面广，应用场景丰富，定制化需求多，金融数据的沉淀和治理基础好，宜引入业界领先的基础大模型，自建金融行业和/或企业大模型。对于急缺的场景支持能力，也可采用模型微调训练的方式形成专业领域的任务大模型，快速赋能业务。

中小银行机构，综合考虑应用产出和投入成本的性价比，可按需引入应用层的智能产品，直接满足赋能诉求，或者基于产品配套的模型微调工具结合场景数据敏捷开发任务级模型。

从大模型全技术栈能力建设的着眼点，相较于国际领先水平，各大商业银行在算法、算力、训练数据、开发运营方面的大模型支撑能力尚有不足，应当在原有人工智能技术栈的基础上，结合企业针对以下四个方面研判设定短、中、长期的建设目标，采用分层解耦的模式，推进企业人工智能技术水平向通用人工智能演化，促进人工智能与金融业务深度融合。

(1) 加强算力基础设施建设

大模型参数量的增加导致训练过程的计算需求呈现指数级增⻓。为了快速训练和规模化应用模型，需要强大的计算能力来支持高效的分布式训练和推理，算力成本投入巨大，必须对投入产出做综合考量。

一是短期的算力建设目标应当以业务需求为导向，明确应用大模型边际效用突出的业务场景，合理规划算力规模，避免盲目求大。
二是基于大模型技术发展趋势研判中、长期的算力需求规模，在此基础上制定相应的建设目标，在机房容量、能耗、制冷、网络架构等基础设施方面预留好扩展空间。
三是针对高性能 AI 算力供不应求的局面，做好基于异构算力设备的大模型技术栈规划，以利用市场机制保障设备供给。
四是完善和加强算力云化技术，实现算力的灵活弹性供给来高效满足大模型算力需求。
五是以绿色低碳为责任，采用节能环保的技术和设备，优化能源使用效率，减少碳排放，降低运维成本，实现算力基础设施的可持续发展。

(2) 构建高质量数据集

数据是大模型的重要生产要素，数据的规模和质量对大模型性能提升至关重要，也将是企业数字化能力的关键立足点。

商业银行应当在现有的数据治理体系的基础上，进一步打通企业部门墙，在保障数据安全的前提下推动企业内部的数据融合，确保大模型数据集的规模和全面性，能够覆盖企业的各个关键领域，兼顾不同地区、客戶群体的代表性。

在数据处理方面，

一是设计合理的数据使用机制，如合理数据配比等，结合训练框架设计从而减少模型训练成本、提升知识应用效率。

二是要强化数据保护技术，采取匿名化等技术手段在数据共享时去除敏感信息;

三是构建自动化数据管道，实现数据接入、清洗、标签、存储的流水线处理，提升数据集构建和维护的效率;四是完善面向大模型开发的数据质量评估方法，建立例行化评估机制，定期进行数据质量检测和监控。

(3) 引入领先模型技术

大模型技术仍然在快速发展和演化过程中，商业银行应当以动态发展的眼光持续关注国内外大模型的最新进展和趋势，根据新技术特点和企业个性化需求，采用商业引入、开源引入、产学研用联合创新等多种方式，夯实和升级大模型技术能力。

在技术管理层面，要建成完备的大模型评价体系和自动化评测方法，支持客观高效地进行新技术验证。在团队建设方面，打造高素质的大模型研究和应用孵化团队，以强化新技术研判能力和加快业务赋能进程。

(4) 打造研发运营流水线

紧跟大模型研发运营一体化的发展趋势，商业银行应当引入和借鉴业界先进的大模型开发平台，对现有的企业人工智能平台进行升级改造，新增集行业适配、微调优化、强化学习、提示词构建、大模型运营于一体的研发运营流水线，实现不同大模型训练应用的流程统一，⻅图 16。

面向业务、业务应用研发人员，可以通过提示词工程敏捷打造通用解决方案，通过大模型服务市场支持业务快速复用。面向 AI 科技研发人员，基于底层大模型基

础能力，融合其他技术能力，沉淀知识检索、代码生成、数据分析等标准化端到端解决方案，降低大模型应用⻔槛。

面向大模型专业研发人员，打造大模型开发流水线，支持微调、分布式训练、计算资源调度等能力，为大模型算法和基础服务研发提供全链路工具支撑。

图 16:大模型研发运营流水线

(二) 评测体系逐步完善，可信治理持续健全

传统的机器学习、深度学习任务以分类、回归问题为主，输出的范围边界明晰(比如二分类问题的“是”和“不是”，软件表示即为 1 和 0 两个确定的数值)，已有较为明确的评价指标。

生成式语言大模型以自由对话的通用交互模式来支持广泛的任务类型，输出结果为⻓度不定的自然语言文本，往往不具备唯一的标准答案，对模型的评测带来新的挑战。大模型生成的内容可能会存在事实性错误、侮辱、反伦理道德乃至违反法律法规的情况，误导用戶或者造成舆情和法律责任。

另外，生成内容还有潜在的泄露隐私的⻛险，使得数据安全也成为大模型应用的关注点。

商业银行在深入研究并探索大模型潜力的同时，需认真对待其潜在的⻛险，构建系统、完备的测评体系，持续健全大模型可信治理机制，推动大模型应用安全合规健康地发展。

1. 评测维度: 保障评测全方位覆盖

(1) 模型能力评估

大规模语言模型(Large Language Model, LLM)基于提示工程(Prompt Engineering)、上下文学习(In-context Learning)、思维链推理(Chain of Thoughts)等一系列新的生成范式，通过自然语言指令交互的形式实现了多领域多任务的统一，大幅提升了自然语言处理任务的能力，也使得 LLM 逐渐演化成为面向不同任务的基座模型。

LLM 在不断刷新传统评估任务榜单成绩的同时，也引起了如何有效、体系化的衡量作为基座模型的 LLM 在多领域多任务能力的思考与实践。

对于大模型能力的测评，不仅需要考量模型的综合能力，还需要设计细分任务，深度考察模型解决复杂任务的能力。

通常大模型需要衡量的能力包括:理解能力、生成能力、推理能力、知识面广度、情感分析和推断、问题解决能力、对话和聊天、道德和伦理等方面。

此外，同一任务下，模型能力的考察范围也在拓展。例如在问答任务上，不仅考察模型对选项或者数字结

果是否回答准确，也考察其生成结构化解释的能力;在翻译任务上，同时考察自然语言翻译和代码语言转化的能力;在聊天任务上，细分问题回答、创意生成、较⻓上下文的多轮对话、多领域对话等能力，以及引入人工打分，从正确、简洁、流畅、有效、探索能力、共情能力、建议能力、信息量等维度进行考量。

模型能力的体系化量化评估能够直观反映不同模型之间的差距，也能更准确地定位模型的弱点，例如普遍被讨论的幻觉、未能探求更多信息、给出重复内容等，为模型的改进提供更精确的指导。

现有的评估集正在探索如何全面评估模型的综合能力，让模型在测试评估中的得分能更真实的反映实际用戶体验。

(2) 模型安全评估

人工智能模型因为其性能而广泛应用，又因为其决策难以理解的黑盒性质受到限制。大模型要做到在真实世界中，尤其是安全领域上的应用，验证其可信安全是至关重要的。近年来围绕着鲁棒性、可解释性与可控性方面的大模型可信安全评估持续升温。在鲁棒性方面，评估类别有模型对于任务的鲁棒性和对指令的鲁棒性。

研究通常针对模型面对噪声输入、攻击性扰动或不确定环境时的表现进行评估，例如通过添加轻微错误或改变语义等方式来评估扰动对模型产生的影响。

近期，针对普遍采用指令微调的大模型，模型对于指令提示、任务标签的鲁棒性也引起了关注。在可解释性(透明性) 方面，大模型评估关注模型解释的合理性、一致性。模型的可解释性可以从

两个方面体现，一是模型是否可以对输出做出自我解释，二是第三方是否可以对模型的输出做出解释，例如通过注意力解析或者模型输出概率。

可解释性可以通过几个方面进行衡量，分别是: 模型的决策过程是否可以被理解，模型在处理某个任务时是否有合理的依据，以及模型对于输出结果的不确定性估计。

在可控性方面，主要评估模型的行为是否可以被有效控制，是否可以根据特定需求调整模型的输出。比如在内容生成的任务中，是否可以控制模型生成特定⻛格或者含有特定元素的内容。这个评测标准主要是为了确保模型在实际使用中的灵活性和适用性。

(3) 模型伦理评估

大模型训练的数据是从网络、语料库等来源收集的，在一定程度上反映了真实世界的错误与干扰，而具备更多参数的大模型往往更善于模拟训练数据的分布，记住更多细节，也更容易发生伦理风险。现在的量化评测系统已经开始考虑模型是否公平地处理各种群体(性别/种族/宗教)的输入，以及模型的输出是否符合道德和法律规定等问题。

群体偏见评估方面，目前的研究大多从性别、种族以及宗教三个维度评估模型是否存在偏见，检查模型是否公平对待所有群体。

通常评估方法是检查模型是否更倾向于对某种群体进行负面或错误的标记，或者在处理涉及不同种群体的任务时是否存在明显的倾向性或歧视。这类评估通常需要提前设计好词库，并对模型的结果进行详细的统计分析。

有毒性评估方面，通常是检查模型是否产生违法犯罪、政治敏感、侮辱性/攻击性的内容输出。例如针对容易触发伦理问题的场景，创建含有有毒性内容的攻击输入，检查模型的回应;以及检查模型在接收正

常输入时，是否产生有毒的输出，此种评估方法通常需要构建一个判别器模型用于自动检查模型的输出是否与人类伦理道德价值观对齐。

2. 评测体系: 系统化指导评测实施

(1) 大模型评测方法

随着大模型的性能逼近现有数据集的上限，例如 Chinchilla 模型(69.3) 在 5-shot 设置下的 MMLU 表现几乎是所有人类评分者平均值(34.5)的两倍，而 GPT-4(86.4)在 5-shot 设置下已经十分接近人类专家(89.8)的水平，需要提出更多更具挑战性的任务以满足模型评估的需求。

另外，新任务场景需要设计新的评估方法。例如，在代码生成任务中，常用的评测指标 pass@k 需要多次采样生成结果，然后使用编译器或解释器执行检查。

目前，大模型评估方法可以分为基于数据集指标的自动评估，基于打分系统的人工评估，以及使用 GPT-4 作为评测者的自动评估。

基于数据集指标的自动评估主要依赖于标准化的度量和基准测试集，我们也看到了近期更多针对大模型的基准测试集出现。

基于打分系统的人工评估可以提高模型评价的丰富性和准确性，因为相较于针对特定 NLP 任务构建的学术基准测试集，人类主观构建的话题以及对于模型回答的判断可能更适用于评判通用聊天机器人的好坏。

例如 UC 伯克利提出的聊天机器人竞技场(Chatbot Arena)，利用 Elo 等级分制度引入人类评价对大语言模型进行排名。

使用 GPT-4 作为评测者的自动评估近日由 Vicuna 团队提出，GPT-4 可以根据有用性、相关性、准确性和细节等对这些模型的答案质量进行评分，给出相对一致的分数和评分依据。

但这项方法仍有其局限性，GPT-4 在编程或数学问题上还不能给出良好的评估。

(2) 大模型评测指标

大模型评测最通用的指标是精度，在不同场景下有不同的定义，体现了模型在该任务上的平均正确率。对于可以直接比较模型回复和标准答案的选择、判断和简单问答题，通常使用精确匹配(Exact-match)、召回率(Recall)、精确度(Precision)和 F1 等指标。

对于有参考答案的其他条件文本生成任务，会采取基于词重叠度的指标作为精度标准，如机器翻译方面的 BLEU 和 TER，文本摘要中的 ROUGE 和 METEOR 等;在信息检索等专注于结果排序的领域，有 RR、NDCG 等指标。

此外，对于语言建模和代码生成等任务，还有困惑度 (PPL)、Pass、BPB 等指标，从语句的流畅程度、代码通过率等方面衡量生成结果的精度。

除了模型精度，还需要知道模型对于预测结果的置信度和不确定性，这对于系统在高⻛险环境下的部署尤为关键。例如在使用模型辅助决策时，如果模型的预测不够确定，可以及时进行人工干预而不是放任潜在的错误。

不确定性通常使用预期校准误差(ECE)来衡量，较低的预期校准误差表示模型的预测结果能较好地反映真实概率，例如，如果一个 ECE 低的模型预测 1000 个句子有毒，每个句子的概率为 0.7，那么可以认为其中大约有 700 个是有毒的。

模型的稳健性和公平性评估方式较为类似，通常通过比较模型在不同输入下的精度差别来衡量:对模型输入施加错别字或语义等扰动模拟真实噪音以评估模型的稳健性，改变输入文本中某些人或社会群体的性别、种族等属性，比较模型预测结果是否有性能上或事实上的差距。

(3) 大模型评测数据集

大模型评估方面已经出现了一些有代表性且广泛使用的综合基准数据集，例如:MMLU 是多任务知识理解领域的通用测试集，涵盖从数学和计算机科学到人文和社会科学的广泛知识领域。

BIG-Bench 是一个各领域专家合作构建的大型数据集，目的是从各方面探索大语言模型的性能，并提出了一系列对当下模型有挑战性的任务。

HELM 是一个综合测试集，测试数据建立在许多先前研究的基础上，拥有包括问答、摘要、信息检索等 16 组核心场景和准确性、校准、鲁棒性、公平性、偏见、毒性和效率 7 类评估指标。

近期发布的中文数据集有 MMCU 数据集，覆盖教育、医学、心理学、法律 4 个领域的专业知识;
C-Eval 数据集，专注世界知识和推理等领域;
SuperCLUE 数据集考察语言理解能力，并提出了许多有中文特点的任务，包括中文成语、诗歌、文学、字形等。

除了以上综合测试集外，还有专注于评估大语言模型特定能力的测试基准，如用于多语言知识利用的 TyDiQA、用于多语言数学推理的 MGSM、用于复杂推理的 HellaSwag、用于阅读理解的 SQUAD、用于代码生成的 HumanEval 等。

在评测数据集上，目前的研究存在几个主要问题:

一是数据集不够充分，能力评估仍有不足，在多模态和模型与外界交互等新兴任务领域缺乏测试数据和标准，高度依赖人工评估，在模型安全评估和伦理评估方面虽然有 CivilComments 负面评论数据集和 SAE 公平性数据集等，但总体上测试数据较少;

二是测试集迭代速度快，如 Super GLUE 数据集仅发布 18 个月，模型表现就已超过人类结果，测试集对模型的挑战性不足;三是受限于时间和成本，许多测试集在噪音、正确性和难度分布上存在问题，降低了测试结果的可解释性。

3. 风险管理:助力打造负责任应用

对于大模型在安全可信方面的问题，我国高度重视大模型技术⻛险的管理。2023 年 7 月，网信办会同六部委共同发布《生成式人工智能服务管理暂行办法》(以下简称“办法”)，为生成式人工智能的发展和应用推广划下了“红线”，明确了顶层监管办法。

同时，办法也鼓励行业和企业在生成式人工智能技术创新和⻛险防范等方面积极展开合作和研究。以下从性能缺陷、脆弱性、伦理三方面对大模型技术⻛险管理展开讨论。

(1) 性能缺陷风险管理

目前大模型对于其生成内容的可信性缺乏保障，容易生成自然流畅但包含误导性、虚假内容以及事实错误的文本，可能误导投资者做出错误的决策，导致财务损失; 同时大模型技术可能被用来生成高度逼真的伪造内容，如合成的图片、视频和音频资料，也为不法分子操纵金融市场、影响股价或者其他金融工具的价格等提供了新工具，给金融安全造成威胁，同时也将严重破坏市场参与者之间的信任。

因此，我们亟需针对大模型性能缺陷给金融行业带来的风险采取针对性回应举措:

行业层面，建立面向金融行业的大模型标准技术体系，在金融行业法律法规方面建立系列规章制度，对主管部门的金融政策指导实施监管和规范，同时加强金融大模型的技术创新和防御研究;
企业层面，建议金融企业设立相关部⻔负责大模型技术⻛险管理，整体考虑和设计符合金融业务场景的大模型安全制度体系，扩大大模型安全专业人才队伍，提升相关金融技术人员的专业技能。

(2) 脆弱性风险管理

目前大模型在面对攻击行为时具有脆弱性，例如在面临特定形式的输入内容时，模型可能被诱导违反自身的编程限制，生成超出金融服务范畴的内容或者泄露用戶的隐私信息;或者在训练数据遭受投毒攻击后，模型可能被劫持并在特定条件下生成预定的内容，误导金融消费者对行情的判断，使攻击者不当获利，进而导致消费者对金融服务的信任度下降。

这种脆弱性为大模型技术在金融服务中的使用带来了极大的安全风险，需要采取措施防范潜在的恶意攻击:

行业层面，建立面向金融行业的大模型脆弱性⻛险管理标准规范，健全技术体系以支持落实国家监管政策，针对大模型的对抗和投毒攻击⻛险设置体系化评价标准和测评机制，为模型加固增强提供技术支持，指导企业防范攻击⻛险;
企业层面，针对金融大模型脆弱性采取相应的技术手段进行防范，同时制定相应的审查机制，严格控制训练数据质量，确保数据中不包含隐私或有害内容;强化模型抗攻击能力，同时对攻击行为实施监测，对于异常使用行为应当及时停止服务并视情况采取惩罚。

(3) 伦理风险管理

大模型由于其高质量内容生成的能力，导致其在使用的同时可能引发伦理问题，包括: 生成内容的版权归属存在争议，例如金融研究报告的版权等;生成的内容可能被用于恶意用途，例如刻意生成误导投资者的投资建议;

大模型生成功能可能被过度依赖，导致使用者的金融专业能力退化;生成内容可能诱导使用者进行不合理甚至非法的金融行为;生成内容中可能存在偏见与歧视信息，误导用戶形成错误认知。

这些伦理问题可能导致大模型的使用带来一定的社会危害性，造成社会秩序混乱甚至威胁人身和财产安全，需要采取针对性的防范措施:

行业层面，建立健全金融大模型伦理审查相关标准和技术体系，对于模型生成内容的有害程度和偏⻅与歧视问题形成度量标准，同时构建相关问题的测评技术体系，指导企业对大模型生成内容进行自动化检验;
企业层面，针对采用大模型技术的金融服务制定管理措施并严格遵循，明确生成内容的版权归属以避免争议，检测并规避有害生成内容，提供防依赖、防沉迷措施并引导用戶恰当使用;优化和提升内容生成技术以避免生成诱导性或偏见与歧视性内容。

4. 技术探索: 提供安全可信技术支撑

(1) 信息追溯技术

尽管当前以 ChatGPT 为代表的生成式 AI 技术已经表现出了非常惊艳的语言理解以及知识推理能力。然而，这类技术依赖的基础模型本质是一个神经网络大模型，存在性能缺陷风险，即生成的内容虽然语句通顺貌似合理，但可能与事实大相径庭。但是模型的训练和推断都是黑盒的，导致不能提供合理的证据进行可信性的溯源与验证。

因此，金融业务场景中，如何在生成式 AI 技术实际部署出现问题时，对特定结果的产生原因、关键环节等要素进行因果溯源分析，保障生成结果与事实的一致性是实现金融大模型可信生成的基础之一。

为了降低大模型的性能缺陷风险，实现生成式 AI 技术在金融业务场景的信息可追溯，主要研究检索增强的可溯源信息整编方法，在大模型中加入访问外部存储库，解耦大模型的记忆模块和推断模块，以更加模块化和可溯源的方式特定金融结果的产生原因、关键环节等要素进行快速的因果溯源分析。

该方法主要由检索器和大模型两个模块实现结果的整编和溯源:

面向金融数据的检索器: 检索器用来辅助模型从外部金融数据存储库中，搜索有关于当前查询中的精确金融相关信息，例如，合同文件、法律条规、实时动态新闻报道、金融知识图谱等特定金融数据;
融合检索技术的生成式大模型:在大规模语言模型的预训练、微调和推理，通过结合查询与检索到的相关信息进行模型推断，其中，检索器返回的信息可以作为生成答案的依据，从而提升大模型的准确性、实效性和可解释性。
检索器和大模型的联合优化:由于生成器和检索器是两个独立的模块，优化往往是相对独立的。为了进一步提高溯源分析效果，探索基于协作学习的联合优化技术，将生成器和检索器进行联合优化，以达到相互增强的效果。

(2) 攻击防御技术

现有的基于大模型的内容生成技术属于深度学习技术范畴，其运作几乎完全由数据驱动而非由人为规则确定，因而容易存在难以察觉到的脆弱性问题; 再加上训练及应用环境直接面向数据提供商及用戶产生的自然语言文本及图像等复杂非结构化数据，模型面临极高的不确定性和被攻击可能性，进一步加剧了模型的脆弱性风险。

因此，金融业务场景中，如何检验金融大模型的缺陷、探测和防御攻击性行为，是降低模型脆弱性⻛险、保障模型安全使用的核心挑战。

为降低大模型脆弱性风险，防范可能存在的恶意攻击行为，主要需要研究基于内容安全检测的攻击防御技术，针对金融大模型开发和应用阶段涉及的各类内容数据进行安全风险监测，使攻击行为无所遁形，进而通过预先处理和拒绝服务等方式回避恶意攻击。

其中涉及的关键技术点包括:

训练数据安全检测技术: 针对金融大模型的训练数据，识别并过滤其中有毒有害、质量低下的内容，防止数据投毒攻击;针对可能包含的隐私数据，进行脱敏预处理，防止泄露隐私;

用戶查询安全检测技术:针对用戶查询输入的内容，分析识别其意图，对于不合逻辑、内容不当、意图非法的查询拒绝提供服务，防止 Prompt 注入等对模型的对抗攻击;
生成内容安全检测技术:针对模型最终生成的内容，对潜在的泄露隐私、功能非法、偏⻅歧视等问题进行检测，过滤不符合安全规范的生成内容，避免将有害内容呈现给用戶。

(3) 可解释技术

目前，以深度学习算法为核心的大语言模型的运作就像是一个黑箱，人们只能看到数据的输入和输出，其内部判断的运行规律和因果逻辑尚不清晰，这一特性使得大模型的生成机理不易被人类理解和解释。一旦模型出现错误，透明度不足将阻碍外部应用者的纠偏和除误，尤其对于大模型应用于金融这类风险厌恶以及对可解释性要求高的领域等。

因此，如何增强大模型机理和输出的可解释性、建立合适的可视化机制来评估和解释模型的中间状态，在模型部署出现问题时进行准确调控，是保障大模型在金融场景中安全、可信运行的关键。

为了降低金融业务场景的大模型伦理风险监管难度，帮助金融机构识别潜在的模型风险并可以及时调整和改进推理结果，主要研究融入因果理论的生成式金融大模型:

基于因果推断的可靠性技术: 通过因果推断中的结构因果模型，建模金融数据的生成过程，对因果机制和黑盒模型进行协同优化来消除模型训练过程中的不确定性，以增强对推理结果的透明度和可解释性，使金融决策者能够更好地评估和验证推理结果的可靠性;
基于先验因果图的可解释性技术: 通过构建金融特定领域的先验因果图，研究金融领域大模型可解释所需满足的基本性质，这些性质可以设计⻛险管理、合规要求、交易限制等，结合这些约束要求设计新的模型结构，并利用可视化等技术手段实现生成过程的可解释分析，帮助用戶更好地理解金融概念和决策;
基于因果干预的可控生成技术: 借助因果干预和反事实推测手段，研究面向金融领域的大模型可控生成方法，结合梯度的低秩分解对模型的特定模块注入更新的知识或纠正不良行为，实现对大模型学习、推断等过程的高效编辑与控制，从而确保推理结果在可控范围之内，同时可以提供个性化的金融分析和投资建议。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。