软件工程3.0实践之路(七):LLM驱动测试,真实记录多家大模型的大比拼

从大模型(LLM)驱动需求工程、LLM驱动软件设计到LLM驱动编程,一路走过来,现在来到“LLM驱动测试”。根据中国信通院云大所调查的数据结果看,其中“LLM驱动测试”提升的效能是最高的,中位值比开发还要高2.5%,最高达到90%。从这个角度看,每一个测试人员都要把LLM用起来,不管是开源的还是闭源的,而且选择的余地还是比较大的。下面的例子,分别是在智谱AI智能体、文心一言、讯飞星火和阿里通义千问。

图片

LLM驱动测试,原则上就是训练好自己的研发大模型、测试大模型或代码大模型,然后再进行软件测试的计划、分析、设计、执行和结果分析与评估。LLM驱动测试可以贯穿整个软件测试生命周期,从需求评审、设计评审、代码评审到单元测试、系统测试和验收测试。在写本文之前,也有比较多的介绍,例如:

~LLM驱动测试计划、验收测试~

根据上面所列的内容,LLM驱动测试几乎覆盖了整个测试的生命周期,但生成测试计划(测试分析)任务、验收测试还缺少案例,在这里补上这方面的例子。

,时长02:48

(这里选用了一个相对复杂的银行催收系统,但我和智能体交互时间还比较短,也没有进行指令优化、多次交互细化测试计划和分析,但这个例子基本能反映LLM驱动测试计划和分析上的巨大价值)

图片

(这是我去年在南京某家公司现场演示的案例:基于业务流程图生成测试用例——E2E的验收测试用例)

图片

(进一步,生成上面E2E的测试用例1的详细、规范的描述)

除了功能测试,我们还可以扩展到接口测试、性能测试和安全性测试,下面分别通过视频展现,更能体会哪家大模型生成的结果更好,而且性能(生成速度)也不错。

~LLM驱动接口测试~

智能体有两种模式,直接生成脚本或生成下载到xml文件。

,时长01:12

(先生成接口测试用例,再生成脚本文件,供下载。相对来说,智能体生成速度较慢,也许是算力不足)

,时长02:26

(直接生成脚本,总共有8条测试用例,其实还可以进一步提示,让它生成更充分的测试用例)

其他大模型,包括GPT3.5 Turbo、文心一言、讯飞星火、阿里通义千问等基本都是直接生成测试脚本,多数是生成一个文件,而讯飞星火是每一个脚本是一个文件,提供了代码窗口和拷贝功能。注:提示词是一样的。

,时长00:40

(GPT3.5生成接口测试用例有4+6=10个,但生成脚本只有2+5=7个,而GPT4生成脚本也只有1+6=7个,但更规范,有了TestCase id、<Description>等)

,时长01:48

(文心一言生成,有Test case IT,速度快、脚本完整,生成了7个用例)

,时长00:46

(讯飞星火生成速度更快,只用了40秒生成了7个用例)

,时长01:10

(通义千问生成内容有较详细的说明,而且有test suite概念,但生成的负面测试用例比较少,只有3个)

LLM驱动接口测试,还可以做更多工作,留到今年AiDD峰会上海站前两天(5月15-16)的培训课程《大模型驱动全程测试的实践之路》再细讲,敬请关注

图片

~LLM驱动性能测试~

下面我们看看LLM如何驱动性能测试,包括性能测试计划(方案)、性能测试策略、性能测试过程指导以及到测试工具的配置、脚本生成等。为了节省篇幅,这里就展示LLM生成JMeter配置指导书和脚本(.jmx,有的大模型无法生成)。

,时长01:15

(智能体相对比较强,生成的配置完整、过程清楚,还生成XML格式的jmx脚本)

,时长00:55

(通义千问描述性能测试策略比较完整、正确有效,JMeter配置过程描述清楚、基本准确,但没有生成XML格式的jmx脚本)

,时长01:13

(讯飞星火描述性能测试测试有错误、基本没用,过程描述比较high level,但JMeter配置步骤具体、详细,最后也没有生成XML格式的jmx脚本)

LLM驱动安全性测试更有意思,包括web漏洞分析和测试,我就不放出来了,留到今年AiDD峰会上海站前两天(5月15-16)的培训课程《大模型驱动全程测试的实践之路》再细讲,敬请关注

图片

 另外,AiDD峰会上海站有“AI赋能测试”专场、增加了“AI智能体”专场,欢迎提交议题或现场交流讨论(详见:https://www.aidd.vip/sh)

看完这些,作为一个测试人员,如果不会用LLM,是不是很有可能被那些能熟练使用LLM的同仁所淘汰?而且LLM应用水平,也取决于我们自己的测试水平(包括测试理论水平和实践经验),正如我常说的,人机交互智能、人机结对测试是未来常态

  • 9
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值