【实测-AI产品（05）】如何测试一个智能体应用？

最新推荐文章于 2025-03-26 20:21:04 发布

我去热饭

最新推荐文章于 2025-03-26 20:21:04 发布

阅读量1.3k

点赞数 6

分类专栏： AI学习笔记文章标签： python django 人工智能智能体元器

本文链接：https://blog.csdn.net/qq_22795513/article/details/140611885

版权

AI学习笔记专栏收录该内容

11 篇文章

订阅专栏

上一章，我用腾讯元器弄了个简单的对话产品-【测试开发干货】智能体。本章，我将开始统计和实测对其的测试。

关于测试，从功能角度整体上，我对其分成了三部分：

1. 智能体的基础功能测试：包括创建、编辑、体验、发布、保存、对话效率等等基础功能的测试，我想，这些功能应该没有太多bug，也并非咱们这个系列讨论的重点。于是我就不测这第一种了。

2. 智能体的基础对话内容测试：在创建元器后，我们可以直接对其对话。一些简单的问题等等都可以回答的不错，底层用的混元大模型。这些是任何一个空白元器都具备的基础能力，可以进行测试。包括但不限于回答内容准确性，问题理解力，法律，民俗，自然科学，数学，语文，外语，物理化学生物，各种要求，暴力测试，引导偏向等等角度进行测试。这些东西我个人认为出bug的概率并不大，毕竟都是直接调用大模型，即便有问题，恐怕也是很深很复杂甚至无法根本上修复的问题。如果不是违反法律法规的bug，那找出来意义不大。针对大模型的测试方法，我之后会统计成一个xmind，欢迎下载。

3.智能体的自定义额外增加内容的学习测试：也就是元器新增的自定义功能，比如你自己添加的pdf或txt文档，插件，工作流等，智能体对其的学习理解和运用关联等能力的测试。这部分是比较重要的，这是元器智能体，是否能领先其他大厂智能体，是否能具备个人特性的关键卖点，而且出现bug的概率恐怕不低，当然，要看测试能否到位了。大家都是做过多年测试的狐狸，就不唱聊斋了。市场上的各种文档和网友脑洞五花八门，是永远不可能在公司测试组和测试环境下穷尽测试的。也就是现在还没有普及，一旦普及，那脑洞的智能体会非常可怕，各种同行想搞破坏和抹黑的情况也会比比皆是。比如通过特殊的迷惑性文档上传后，诱导智能体回答一些违反法律法规的回答，再截图公之于众，股票大跌可不是开玩笑的，别到时候又杀几个测试祭天了~ 所以这部分是测试的重点。也是从未有过的，于是我觉得这是重点

（用普通用户的角度来访问对外链接，发现目前第一大部分的功能都挺正常的，我设置的这些开场语都可以正常展示和点击，当然，我没有进行无效等价类/边界值等测试哦~）