大模型驱动下的智能测试技术研究与落地

随着金融业数字化转型的加速推进，提升工程效能、保持质量稳定成为测试过程中面临的突出问题。近年来，大模型技术发展迅猛，为测试提质增效带来新一轮的发展机遇，但同时也带来挑战。一方面，大模型虽然能辅助人工生成测试制品，但生成质量距离人工生成质量还有一定差距；另一方面，直接使用裸模型给测试人员带来额外学习成本，不利于规模化应用。针对以上问题，邮储银行利用自主可控的商业大模型和开源大模型，构建智能化测试服务，形成大模型应用技术调优方案，大幅提升了大模型生成质量；同时，通过与行内测试一体化平台无缝集成，结合软件工程技术，实现应用场景落地和助力规模化使用，整体提升了邮储银行智能化测试水平。

一、技术调优方案

在早期探索阶段，邮储银行发现大模型虽然已具备一定的复杂任务处理能力，但在金融测试领域的应用仍面临两大挑战：一是直接使用大模型一步生成测试用例等测试交付物时，由于缺乏必要的分析步骤，导致这些生成物的可解释性不强；二是由于预训练数据的局限或训练算法的限制，大模型在处理金融测试任务时，常出现知识缺失或知识碎片化的问题。

在早期尝试过程中，邮储银行曾采用Fine-tuning技术对模型实施增量训练，但随着大模型参数规模的持续扩大，该方法的成本也随之急剧上升。为解决上述问题，邮储银行通过高级流程编排、Prompt优化、RAG检索增强技术与工程化相结合的方式构建技术调优方案（如图1所示），力求通过优化大模型的输入输出，使得模型生成的测试制品更符合金融测试领域的要求。

图1 技术调优方案

1.高级流程编排

流程编排是指通过类工作流的方式，引导大模型一步步完成较为复杂的任务，其可通过定义和执行一系列相互依赖的任务（或称为工作项）来管理复杂的业务流程，这些任务可以是模型问答、知识库检索、API调用、服务调用等，可按照预设的顺序和逻辑完成特定的业务目标。

以测试用例设计为例，传统的手工测试设计除了测试规格说明书等知识作为输入外，还依赖于测试人员的主观经验，需要基于已有的业务背景知识、测试知识，对输入信息进行详细的测试分析，并灵活应用测试设计技术、遵守编写规范，最终设计出符合内部规范、覆盖全面的测试用例。在早期方案中，邮储银行通过工程切分的方式使大模型的输入粒度变细，从而提升了模型输出的精细度。但是，该方法存在上下文长度限制、知识缺失、缺乏结构化处理等痛点，易导致生成的测试用例质量参差不齐。

为有效解决早期方案存在的缺陷，经过持续迭代，邮储银行逐步构建了以大模型为核心的高级流程编排体系，其核心逻辑在于模拟人类分析过程，将单次输入转化为多次输入，以渐进式的方式提升各节点精准度，进而确保生成结果的可信性。早期方案与现行方案对比如图2所示。

图2 早期方案与现行方案对比

具体而言，现行方案涵盖两大关键要素：

一是精细化任务拆解，旨在解决裸模型因单次输入局限而难以应对复杂任务、无法生成精细粒度输出的痛点问题。

二是知识强化，着力走出裸模型仅依赖预训练而缺失业务知识、行业规范等特定领域知识的困境，以此全方位提升整体流程编排的效能与质量。

2.Prompt优化

在流程编排的构建过程中，为实现对复杂任务的有效拆解，Prompt的构建和优化成为大模型完成测试任务的关键一环。在实际的应用过程中，一份优质的Prompt对于大模型生成质量的提升最为立竿见影。其中，有两个优化策略至关重要：一是Few-Shot，即给予大模型优秀示例，以帮助大模型理解任务和目标，并生成正确的响应；二是COT，这个概念来源于学术界，它提出如果生成一系列的中间推理步骤，就能够显著提高大型语言模型进行复杂推理的能力。

经过不断尝试，邮储银行总结出“动静结合”的Prompt针对性优化方案：

“静”表示某一场景下Prompt模板中的通用部分，如角色设定、任务要求、设计步骤、输出要求等内容。

“动”表示Prompt模板中的可变部分，包含大模型分析生成的中间产物，如功能点、需求切片、生成的测试点等，还包含输出示例、RAG检索知识等内容，是大模型上下文的补充。功能测试用例设计Prompt模板如图3所示。

图3 功能测试用例设计Prompt模板

3.RAG检索增强

传统的测试分析与设计过程高度依赖于测试人员的个人经验，而这些经验往往植根于特定的业务背景知识、测试规范及标准等具有较强“领域特性”的信息之中。但是，当大模型应用于金融测试领域时，常面临知识不完备、碎片化的问题。因此，银行构建一套专有的测试知识库即显得尤为重要且迫切。

邮储银行在深入剖析现有测试流程的基础上，通过梳理智能测试的数据资产，计划借助知识库划分的方式，构建项目知识、业务知识、测试知识以及测试问答等多维度知识库，以此攻克大模型缺乏领域知识的难题。

以测试用例设计场景为例，依据实际状况可建立如下三类知识库：

一是项目知识库，涵盖需求规格说明书、历史用例、原型图等项目内部沉淀的资产，能够作为大模型输入信息的补充背景资料。

二是业务知识库，包含业务术语阐释、用户手册、操作指南等资产，可助力大模型理解需求规格说明书中复杂的业务背景与细节。

三是测试知识库，包含测试设计规范与方法、测试用例模板以及测试要点与验证点等资产，其用途在于引导大模型生成更为精准、规范的测试制品。

二、工程化应用落地

为了向用户提供更高效便捷的智能测试服务，邮储银行构建了集流量控制、模型调用、AI应用调用、知识库调用等功能于一体的智能测试服务体系（如图4所示），并与现有测试平台无缝集成，打通了大模型驱动智能测试的“最后一公里”，为用户带来全新的智能测试体验：

一是提供沉浸式AI服务，支持异步及流式响应，调用方在使用时无需等待，并可根据实际需求灵活调用；同时，深度融入测试流程的各个环节，为用户提供无感知的AI使用体验。

二是着力提升智能服务应用能力，通过工程工具与大模型的结合实现技术增强，在提升用户体验的同时，拓宽了应用场景边界。

截至目前，根据各测试环节的主要测试活动，智能测试服务支持了测试需求分析和用例生成、自动化脚本生成、测试计划和测试报告的局部生成、测试结果分析以及智能问答等多个核心测试工作场景，并在30余个项目中推广试用。

图4 智能测试服务体系

三、未来展望

未来，邮储银行将沿着技术与应用两大路径，持续深化智能测试在实际工作中的技术研究与应用落地。在技术研究方面，基于已有技术沉淀，逐步强化智能测试技术体系：一是探索智能体（Agent）与现有测试流程的深度融合，探索Agent自主规划替代工程化的固定流程编排；二是通过融合多模态大模型，从文本测试场景扩展至涵盖图片、语音和视频等多媒体的测试场景，扩展智能测试的应用边界。在应用落地方面，持续丰富和完善智能测试应用生态体系：一是打造智能测试精品应用场景，通过效能提升带动更多场景的应用落地；二是覆盖更多精细领域的测试活动，如检查评审、缺陷分析等；三是在重要系统开展全面应用，逐渐完善从项目评估、试用问题反馈到反哺测试制品优化的全链路。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述