AI 产品测试≠传统功能测试!这些坑你一定要避免!

📝 面试求职: 「面试试题小程序」 ,内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试,命中率杠杠的。(大家刷起来…)

📝 职场经验干货:

软件测试工程师简历上如何编写个人信息(一周8个面试)

软件测试工程师简历上如何编写专业技能(一周8个面试)

软件测试工程师简历上如何编写项目经验(一周8个面试)

软件测试工程师简历上如何编写个人荣誉(一周8个面试)

软件测试行情分享(这些都不了解就别贸然冲了.)

软件测试面试重点,搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用(永久使用)


最近跟前同事们聊天,聊到我这大半年来做的都是AI产品的测试,他们都很好奇的问我测试AI产品跟以往普通的产品有啥区别,当时其实还是有点懵的,一时半会儿说不出来多少区别。

后来闲暇时间认真的对比梳理了下,发现还是有挺多的不同,今天就来跟大家分享一下,也欢迎大家补充更正,共同学习。

AI产品的测试方法

01 功能测试

准确性测试

对于AI产品,输入各种问题指令,检查生成内容是否符合要求。

比如 AI 图像生成工具,我输入“一个黄头发扎个高马尾的小女孩在海边开心的玩耍”,那生成的图片中,小孩必须是女孩,头发必须是黄头发,她一定是开心的样子(笑着),她所在的位置一定得是在海边而非游泳池等其他地方。至于其它,只要合乎情理就行。

Tips:千万不要觉得AI回答的一定是对的,因为它的结果受很多因素影响,比如输入信息、数据质量、模型限制或其他外部环境等。具体来说有以下几个:

1. 输入信息不完整或模糊

问题描述不清晰:

如果用户的问题描述不够具体或存在歧义,AI可能会误解问题的意图,从而给出不准确的回答。

例如,问“我头痛怎么办?”AI可能会给出一些通用建议,但这些建议可能并不适合具体情况。

缺少关键信息:

如果问题中缺少关键信息,AI可能无法提供准确的答案。

例如,问“这个药能治我的病吗?”但没有说明具体病情,AI就无法给出准确的建议

2. 数据质量或数据量不足

训练数据有限:

AI模型的性能高度依赖于训练数据的质量和数量,如果训练数据中缺乏某些特定场景或信息,AI可能无法准确处理这些情况。

例如,一个医疗AI模型如果在训练时没有足够的罕见病数据,可能无法准确诊断罕见病。

数据偏差:

如果训练数据存在偏差,AI模型可能会继承这些偏差,导致不准确的回答。

例如,如果训练数据主要来自某一特定人群,AI可能在处理其他人群的问题时表现不佳。

PS:底层数据源质量对回答结果影响很大,测试过程中一定要多注意,如果底层数据有很多问题,必然导致回答不如意。

3. 模型限制

模型能力有限:

不同的AI模型有不同的能力和限制。

例如,一个简单的语言模型可能无法处理复杂的逻辑推理或高级数学问题。即使输入信息完整,模型也可能无法给出准确答案。

上下文理解不足:

AI模型在处理长文本或复杂对话时,可能无法完全理解上下文信息,从而导致回答不准确。

例如,在多轮对话中,AI可能忘记之前的对话内容,导致回答与上下文不符。

多轮对话处理不好:

AI模型在处理多轮对话时很容易“断片”,回答不够连贯或者稳定,尤其是轮数越大,质量越差。

4. 外部环境或实时数据问题

实时数据不准确:

如果AI依赖实时数据(如天气、股票、黄金价格等),而这些数据源出现问题(如数据延迟、错误等),AI的回答可能会不准确。

例如,AI引用了错误的天气数据,给出的建议可能就不准确。

外部环境变化:

如果外部环境发生了重大变化,而AI模型没有及时更新,可能会导致回答不准确。

例如,AI模型基于旧的法律法规给出建议,而这些法规已经更新了。

5. 多义性或主观性问题

多义性问题:

有些问题可能存在多种解释或答案,AI可能无法准确判断用户的意图。

例如,问“最好的编程语言是什么?”这个问题非常主观,AI可能无法给出一个所有人都认可的答案。

主观性问题:

对于涉及个人偏好、价值观或情感的问题,AI的回答可能无法完全满足用户的期望。

例如,问“我应该如何选择职业?”AI可以提供一些通用建议,但无法替代个人的主观判断。

6. 技术故障或错误

系统故障:

AI系统可能会因为技术故障(如服务器问题、软件错误等)而无法正常工作,导致回答不准确或无法回答。

模型更新问题:

如果AI模型没有及时更新,可能会在处理新问题时表现不佳。

例如,AI模型没有学习到最新的技术或知识,可能会给出过时的答案。

如何提高AI回答的准确性?

提供清晰具体的问题:

尽量详细地描述问题,避免模糊和歧义。(一般对应产品官网都会有示例问题,可以参考其提问方式)

定期更新模型:

确保AI模型使用最新的数据进行训练,以提高其准确性和适应性。

多源验证:

对于重要问题,可以参考多个AI模型或数据源,以提高回答的可靠性。(针对一些重要的报告输出,一定要多远验证,避免出现错误误导大众)

反馈和优化:

如果发现AI回答不准确,可以提供反馈,帮助模型不断优化。(反馈很重要,模型也是在不断的学习更新知识)

通过这些方法,可以有效减少AI回答不准确的情况,提高其在实际应用中的可靠性和实用性。

完整性测试

检查 AI 产品在功能上是否完整。

比如,文本生成工具是否能生成完整的段落、文章,有无明显的内容缺失;图像生成工具是否能生成完整的图像,不存在部分缺失或模糊不清的情况;视频生成工具是否能生成包含完整音频、视频内容的作品,有无音画不同步等问题。

多样性测试

多次输入相同或相似的指令,观察生成结果的多样性。

这个主要是因为很多时候,我们对回答不太满意,希望重新生成,如果这个时候反复生成都是一样的答案,那体验会很不好。

特殊场景测试

  • 边界值测试:比如超长指令或者生成超长结果的场景测试。

  • 容错性测试:故意输入错误或不完整的指令,查看 AI 工具的处理方式。例如,输入语法错误的文本、模糊不清的图像描述或不完整的视频脚本,检查工具是否能够给出合理的提示或尝试进行纠正,而不是出现错误或无法响应。

  • 语言语气测试:测试反讽或者幽默语言,模型应该能够识别并作出恰当的回应。

  • 敏感话题测试:针对可能涉政涉毒等敏感问题,模型能够遵循法律法规,避免不恰当言论的输出。

  • 多语言支持测试:针对方言,专业名词缩写等小众化的指令,能尽可能好的支持。

02 性能测试

响应时间

记录 AI 产品在处理任务时的响应时间。

例如,输入一个复杂的问题或指令后,测量文本生成工具生成内容、图像生成工具生成图片、视频生成工具生成视频所需要的时间。

针对一些实时性要求很高的产品如自动驾驶、实时语音交互等,要严格测试模型的响应时间和处理延迟。在高并发情况下,模型能否在规定时间内给出准确的结果是至关重要的。

资源占用

使用系统监控工具,查看 AI 产品在运行过程中对 CPU、内存等资源的占用情况。确保其在运行时不会导致系统过度卡顿或出现资源耗尽的情况。

比如:测试并发用户时,应模拟真实用户的行为模式,包括随机的提问、长时间的会话等,以评估模型在高负载下的表现。

03 鲁棒性测试

鲁棒性测试旨在检验 AI 产品在输入数据存在噪声、错误、对抗攻击,以及运行环境发生变化等不利条件下,是否仍能正常工作并输出可靠结果。

其目的是确保 AI 系统在实际应用中具有足够的稳定性和可靠性,能够应对各种可能出现的意外情况。

噪声测试

通过对输入数据添加噪声、进行数据增强等方式来模拟数据的不准确性和多样性。

例如,在图像识别任务中,对图像添加高斯噪声、椒盐噪声,或进行旋转、缩放、裁剪等操作,观察模型的识别准确率和稳定性。

对抗攻击测试

专门构造针对 AI 模型的对抗样本,这些样本通常在人类视觉或其他感知层面上与正常样本几乎无差异,但会导致模型产生错误的输出。

例如,在人脸识别系统中,通过在图像上添加微小的扰动,使模型将一个人错误地识别为另一个人。

鲁棒性测试,在电商图片搜索系统,自动驾驶目标检测系统,医疗影像诊断系统的测试中要特别注意,一个小小的差异可能导致结果差异很大。

04 安全性测试

跟传统产品相比,AI产品的安全风险更为复杂和不确定,由于 AI 技术的复杂性和自适应性,可能会出现一些难以预料的风险。

例如,AI 模型在不断学习和进化过程中,可能会产生新的安全漏洞或行为异常;算法偏见可能导致不公平的决策结果,引发社会和法律问题;而且 AI 产品对数据的高度依赖,使得数据泄露、数据质量问题等带来的风险更为突出。

以自动驾驶汽车为例,不仅要测试其在各种路况下的行驶能力,还要防止黑客攻击导致车辆失控,以及避免因算法偏见对某些特殊路况或行人做出错误决策。

总结

以上只是针对AI产品,特别拎出来重点说明的,其他的测试,比如可靠性测试,易用性测试,兼容性测试,用户体验测试等,都跟传统产品的测试方法类似,在此就不再赘述了。

最后: 下方这份完整的软件测试视频教程已经整理上传完成,需要的朋友们可以自行领取【保证100%免费】

​​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值