随着金融业数字化转型的加速推进,提升工程效能、保持质量稳定成为测试过程中面临的突出问题。近年来,大模型技术发展迅猛,为测试提质增效带来新一轮的发展机遇,但同时也带来挑战。一方面,大模型虽然能辅助人工生成测试制品,但生成质量距离人工生成质量还有一定差距;另一方面,直接使用裸模型给测试人员带来额外学习成本,不利于规模化应用。针对以上问题,邮储银行利用自主可控的商业大模型和开源大模型,构建智能化测试服务,形成大模型应用技术调优方案,大幅提升了大模型生成质量;同时,通过与行内测试一体化平台无缝集成,结合软件工程技术,实现应用场景落地和助力规模化使用,整体提升了邮储银行智能化测试水平。
一、技术调优方案
在早期探索阶段,邮储银行发现大模型虽然已具备一定的复杂任务处理能力,但在金融测试领域的应用仍面临两大挑战:一是直接使用大模型一步生成测试用例等测试交付物时,由于缺乏必要的分析步骤,导致这些生成物的可解释性不强;二是由于预训练数据的局限或训练算法的限制,大模型在处理金融测试任务时,常出现知识缺失或知识碎片化的问题。
在早期尝试过程中,邮储银行曾采用Fine-tuning技术对模型实施增量训练,但随着大模型参数规模的持续扩大,该方法的成本也随之急剧上升。为解决上述问题,邮储银行通过高级流程编排、Prompt优化、RAG检索增强技术与工程化相结合的方式构建技术调优方案(如图1所示),力求通过优化大模型的输入输出,使得模型生成的测试制品更符合金融测试领域的要求。
图1 技术调优方案
1.高级流程编排
流程编排是指通过类工作流的方式,引导大模型一步步完成较为复杂的任务,其可通过定义和执行一系列相互依赖的任务(或称为工作项)来管理复杂的业务流程,这些任务可以是模型问答、知识库检索、API调用、服务调用等,可按照预设的顺序和逻辑完成特定的业务目标。
以测试用例设计为例,传统的手工测试设计除了测试规格说明书等知识作为输入外,还依赖于测试人员的主观经验,需要基于已有的业务背景知识、测试知识,对输入信息进行详细的测试分析,并灵活应用测试设计技术、遵守编写规范,最终设计出符合内部规范、覆盖全面的测试用例。在早期方案中,邮储银行通过工程切分的方式使大模型的输入粒度变细,从而提升了模型输出的精细度。但是,该方法存在上下文长度限制、知识缺失、缺乏结构化处理等痛点,易导致生成的测试用例质量参差不齐。
为有效解决早期方案存在的缺陷,经过持续迭代,邮储银行逐步构建了以大模型为核心的高级流程编排体系,其核心逻辑在于模拟人类分析过程,将单次输入转化为多次输入,以渐进式的方式提升各节点精准度,进而确保生成结果的可信性。早期方案与现行方案对比如图2所示。
图2 早期方案与现行方案对比
具体而言,现行方案涵盖两大关键要素:
一是 精细化任务拆解,旨在解决裸模型因单次输入局限而难以应对复杂任务、无法生成精细粒度输出的痛点问题。
二是 知识强化,着力走出裸模型仅依赖预训练而缺失业务知识、行业规范等特定领域知识的困境,以此全方位提升整体流程编排的效能与质量。
2.Prompt优化
在流程编排的构建过程中,为实现对复杂任务的有效拆解,Prompt的构建和优化成为大模型完成测试任务的关键一环。在实际的应用过程中,一份优质的Prompt对于大模型生成质量的提升最为立竿见影。其中,有两个优化策略至关重要:一是Few-Shot,即给予大模型优秀示例,以帮助大模型理解任务和目标,并生成正确的响应;二是COT,这个概念来源于学术界,它提出如果生成一系列的中间推理步骤,就能够显著提高大型语言模型进行复杂推理的能力。
经过不断尝试,邮储银行总结出“动静结合”的Prompt针对性优化方案:
“静”表示某一场景下Prompt模板中的通用部分,如角色设定、任务要求、设计步骤、输出要求等内容。
“动”表示Prompt模板中的可变部分,包含大模型分析生成的中间产物,如功能点、需求切片、生成的测试点等,还包含输出示例、RAG检索知识等内容,是大模型上下文的补充。功能测试用例设计Prompt模板如图3所示。
图3 功能测试用例设计Prompt模板
3.RAG检索增强
传统的测试分析与设计过程高度依赖于测试人员的个人经验,而这些经验往往植根于特定的业务背景知识、测试规范及标准等具有较强“领域特性”的信息之中。但是,当大模型应用于金融测试领域时,常面临知识不完备、碎片化的问题。因此,银行构建一套专有的测试知识库即显得尤为重要且迫切。
邮储银行在深入剖析现有测试流程的基础上,通过梳理智能测试的数据资产,计划借助知识库划分的方式,构建项目知识、业务知识、测试知识以及测试问答等多维度知识库,以此攻克大模型缺乏领域知识的难题。
以测试用例设计场景为例,依据实际状况可建立如下三类知识库:
一是项目知识库,涵盖需求规格说明书、历史用例、原型图等项目内部沉淀的资产,能够作为大模型输入信息的补充背景资料。
二是业务知识库,包含业务术语阐释、用户手册、操作指南等资产,可助力大模型理解需求规格说明书中复杂的业务背景与细节。
三是测试知识库,包含测试设计规范与方法、测试用例模板以及测试要点与验证点等资产,其用途在于引导大模型生成更为精准、规范的测试制品。
二、工程化应用落地
为了向用户提供更高效便捷的智能测试服务,邮储银行构建了集流量控制、模型调用、AI应用调用、知识库调用等功能于一体的智能测试服务体系(如图4所示),并与现有测试平台无缝集成,打通了大模型驱动智能测试的“最后一公里”,为用户带来全新的智能测试体验:
一是提供沉浸式AI服务,支持异步及流式响应,调用方在使用时无需等待,并可根据实际需求灵活调用;同时,深度融入测试流程的各个环节,为用户提供无感知的AI使用体验。
二是着力提升智能服务应用能力,通过工程工具与大模型的结合实现技术增强,在提升用户体验的同时,拓宽了应用场景边界。
截至目前,根据各测试环节的主要测试活动,智能测试服务支持了测试需求分析和用例生成、自动化脚本生成、测试计划和测试报告的局部生成、测试结果分析以及智能问答等多个核心测试工作场景,并在30余个项目中推广试用。
图4 智能测试服务体系
三、未来展望
未来,邮储银行将沿着技术与应用两大路径,持续深化智能测试在实际工作中的技术研究与应用落地。在技术研究方面,基于已有技术沉淀,逐步强化智能测试技术体系:一是探索智能体(Agent)与现有测试流程的深度融合,探索Agent自主规划替代工程化的固定流程编排;二是通过融合多模态大模型,从文本测试场景扩展至涵盖图片、语音和视频等多媒体的测试场景,扩展智能测试的应用边界。在应用落地方面,持续丰富和完善智能测试应用生态体系:一是打造智能测试精品应用场景,通过效能提升带动更多场景的应用落地;二是覆盖更多精细领域的测试活动,如检查评审、缺陷分析等;三是在重要系统开展全面应用,逐渐完善从项目评估、试用问题反馈到反哺测试制品优化的全链路。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。