AI 产品测试≠传统功能测试！这些坑你一定要避免！

本文链接：https://blog.csdn.net/AI_Green/article/details/147117230

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

最近跟前同事们聊天，聊到我这大半年来做的都是AI产品的测试，他们都很好奇的问我测试AI产品跟以往普通的产品有啥区别，当时其实还是有点懵的，一时半会儿说不出来多少区别。

后来闲暇时间认真的对比梳理了下，发现还是有挺多的不同，今天就来跟大家分享一下，也欢迎大家补充更正，共同学习。

AI产品的测试方法

01 功能测试

准确性测试

对于AI产品，输入各种问题指令，检查生成内容是否符合要求。

比如 AI 图像生成工具，我输入“一个黄头发扎个高马尾的小女孩在海边开心的玩耍”，那生成的图片中，小孩必须是女孩，头发必须是黄头发，她一定是开心的样子（笑着），她所在的位置一定得是在海边而非游泳池等其他地方。至于其它，只要合乎情理就行。

Tips：千万不要觉得AI回答的一定是对的，因为它的结果受很多因素影响，比如输入信息、数据质量、模型限制或其他外部环境等。具体来说有以下几个：

1. 输入信息不完整或模糊

问题描述不清晰：

如果用户的问题描述不够具体或存在歧义，AI可能会误解问题的意图，从而给出不准确的回答。

例如，问“我头痛怎么办？”AI可能会给出一些通用建议，但这些建议可能并不适合具体情况。

缺少关键信息：

如果问题中缺少关键信息，AI可能无法提供准确的答案。

例如，问“这个药能治我的病吗？”但没有说明具体病情，AI就无法给出准确的建议

2. 数据质量或数据量不足

训练数据有限：

AI模型的性能高度依赖于训练数据的质量和数量，如果训练数据中缺乏某些特定场景或信息，AI可能无法准确处理这些情况。

例如，一个医疗AI模型如果在训练时没有足够的罕见病数据，可能无法准确诊断罕见病。

数据偏差：

如果训练数据存在偏差，AI模型可能会继承这些偏差，导致不准确的回答。

例如，如果训练数据主要来自某一特定人群，AI可能在处理其他人群的问题时表现不佳。

PS：底层数据源质量对回答结果影响很大，测试过程中一定要多注意，如果底层数据有很多问题，必然导致回答不如意。

3. 模型限制

模型能力有限：

不同的AI模型有不同的能力和限制。

例如，一个简单的语言模型可能无法处理复杂的逻辑推理或高级数学问题。即使输入信息完整，模型也可能无法给出准确答案。

上下文理解不足：

AI模型在处理长文本或复杂对话时，可能无法完全理解上下文信息，从而导致回答不准确。

例如，在多轮对话中，AI可能忘记之前的对话内容，导致回答与上下文不符。

多轮对话处理不好：

AI模型在处理多轮对话时很容易“断片”，回答不够连贯或者稳定，尤其是轮数越大，质量越差。

4. 外部环境或实时数据问题

实时数据不准确：

如果AI依赖实时数据（如天气、股票、黄金价格等），而这些数据源出现问题（如数据延迟、错误等），AI的回答可能会不准确。

例如，AI引用了错误的天气数据，给出的建议可能就不准确。

外部环境变化：

如果外部环境发生了重大变化，而AI模型没有及时更新，可能会导致回答不准确。

例如，AI模型基于旧的法律法规给出建议，而这些法规已经更新了。

5. 多义性或主观性问题

多义性问题：

有些问题可能存在多种解释或答案，AI可能无法准确判断用户的意图。

例如，问“最好的编程语言是什么？”这个问题非常主观，AI可能无法给出一个所有人都认可的答案。

主观性问题：

对于涉及个人偏好、价值观或情感的问题，AI的回答可能无法完全满足用户的期望。

例如，问“我应该如何选择职业？”AI可以提供一些通用建议，但无法替代个人的主观判断。

6. 技术故障或错误

系统故障：

AI系统可能会因为技术故障（如服务器问题、软件错误等）而无法正常工作，导致回答不准确或无法回答。

模型更新问题：

如果AI模型没有及时更新，可能会在处理新问题时表现不佳。

例如，AI模型没有学习到最新的技术或知识，可能会给出过时的答案。

如何提高AI回答的准确性？

提供清晰具体的问题：

尽量详细地描述问题，避免模糊和歧义。（一般对应产品官网都会有示例问题，可以参考其提问方式）

定期更新模型：

确保AI模型使用最新的数据进行训练，以提高其准确性和适应性。

多源验证：

对于重要问题，可以参考多个AI模型或数据源，以提高回答的可靠性。（针对一些重要的报告输出，一定要多远验证，避免出现错误误导大众）

反馈和优化：

如果发现AI回答不准确，可以提供反馈，帮助模型不断优化。（反馈很重要，模型也是在不断的学习更新知识）

通过这些方法，可以有效减少AI回答不准确的情况，提高其在实际应用中的可靠性和实用性。

完整性测试

检查 AI 产品在功能上是否完整。

比如，文本生成工具是否能生成完整的段落、文章，有无明显的内容缺失；图像生成工具是否能生成完整的图像，不存在部分缺失或模糊不清的情况；视频生成工具是否能生成包含完整音频、视频内容的作品，有无音画不同步等问题。

多样性测试

多次输入相同或相似的指令，观察生成结果的多样性。

这个主要是因为很多时候，我们对回答不太满意，希望重新生成，如果这个时候反复生成都是一样的答案，那体验会很不好。

特殊场景测试

边界值测试：比如超长指令或者生成超长结果的场景测试。
容错性测试：故意输入错误或不完整的指令，查看 AI 工具的处理方式。例如，输入语法错误的文本、模糊不清的图像描述或不完整的视频脚本，检查工具是否能够给出合理的提示或尝试进行纠正，而不是出现错误或无法响应。
语言语气测试：测试反讽或者幽默语言，模型应该能够识别并作出恰当的回应。
敏感话题测试：针对可能涉政涉毒等敏感问题，模型能够遵循法律法规，避免不恰当言论的输出。
多语言支持测试：针对方言，专业名词缩写等小众化的指令，能尽可能好的支持。