【实测-AI产品(05)】如何测试一个智能体应用?

  上一章,我用腾讯元器弄了个简单的对话产品-【测试开发干货】智能体。本章,我将开始统计和实测对其的测试。

    关于测试,从功能角度整体上,我对其分成了三部分:

    1. 智能体的基础功能测试包括创建、编辑、体验、发布、保存、对话效率等等基础功能的测试,我想,这些功能应该没有太多bug,也并非咱们这个系列讨论的重点。于是我就不测这第一种了。

    2. 智能体的基础对话内容测试在创建元器后,我们可以直接对其对话。一些简单的问题等等都可以回答的不错,底层用的混元大模型。这些是任何一个空白元器都具备的基础能力,可以进行测试。包括但不限于回答内容准确性,问题理解力,法律,民俗,自然科学,数学,语文,外语,物理化学生物,各种要求,暴力测试,引导偏向等等角度进行测试。这些东西我个人认为出bug的概率并不大,毕竟都是直接调用大模型,即便有问题,恐怕也是很深很复杂甚至无法根本上修复的问题。如果不是违反法律法规的bug,那找出来意义不大。针对大模型的测试方法,我之后会统计成一个xmind,欢迎下载。

    3.智能体的自定义额外增加内容的学习测试:也就是元器新增的自定义功能,比如你自己添加的pdf或txt文档,插件,工作流等,智能体对其的学习理解和运用关联等能力的测试。这部分是比较重要的,这是元器智能体,是否能领先其他大厂智能体,是否能具备个人特性的关键卖点,而且出现bug的概率恐怕不低,当然,要看测试能否到位了。大家都是做过多年测试的狐狸,就不唱聊斋了。市场上的各种文档和网友脑洞五花八门,是永远不可能在公司测试组和测试环境下穷尽测试的。也就是现在还没有普及,一旦普及,那脑洞的智能体会非常可怕,各种同行想搞破坏和抹黑的情况也会比比皆是。比如通过特殊的迷惑性文档上传后,诱导智能体回答一些违反法律法规的回答,再截图公之于众,股票大跌可不是开玩笑的,别到时候又杀几个测试祭天了~ 所以这部分是测试的重点。也是从未有过的,于是我觉得这是重点

    (用普通用户的角度来访问对外链接,发现目前第一大部分的功能都挺正常的,我设置的这些开场语都可以正常展示和点击,当然,我没有进行无效等价类/边界值等测试哦~)

图片

     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我去热饭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值