让你的AI模型更“耐打”：鲁棒性测试入门指南

软件测试小仙女

于 2025-01-14 17:30:00 发布

阅读量1k

点赞数 5

文章标签：人工智能算法机器学习软件测试自动化测试可用性测试 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deerxiaoluaa/article/details/145129958

版权

1、引言

模型算法测试在当前测试领域还不是很完善，而且也是属于高端的测试技术，很多测试同学也不是很了解。

　　所以，我就准备让模型算法测试走进测试领域，让更多的测试同学知道模型算法测试，了解模型算法测试，掌握模型算法测试，及最后能把模型算法测试应用于实际工作中，这也是我在推出模型算法测试系列文章的初衷。

　　因为模型算法测试相对于传统测试，还是有很高的技术要求，所以，在读这些模型算法文章中，如果有些困哪，也不要放弃或者灰心，只要跟着我的脚步，沉下心来慢慢学习，再加上自己对编码、人工智能领域涉及到模型算法相关知识的储备及掌握，我相信你也会跟我一样，完全掌握模型算法并应用于实际工作中。

　　这里再说一下，文章内容是结合我的企业中实际工作应用的内容，所以，如果有一些如，方法，代码等，你觉得不太适合你的企业，可以做一点适当的调整。

　　当然，我也会站在大多数的企业角度，争取达到让你开箱即用的效果。

　　好了，闲言少叙，书说简短，开始今天这篇模型算法测试之：鲁棒性测试

　　2、鲁棒性测试概述

　　说到鲁棒性测试，其实就是健壮性测试。

　　为什么这么说呢，我分别在传统测试和模型算法测试中，介绍鲁棒性测试，你就知道了：

　　·在传统测试中，鲁棒性测试就是关注软件系统在异常情况下的行为，响应，动作等，这是通过模拟错误输入、环境变化、系统故障等情况来验证的。

　　·在模型算法测试中，鲁棒性测试则是在不同的噪声条件、数据缺失和数据异常等情况下，来对模型算法进行评估和验证。

　　所以，你看这两个都是验证系统或者模型的稳定性和可靠性。

　　看到这里，是不是就知道了，为什么要做鲁棒性测试了。

　　为了便于理解，这里我也总结了几点：

　　1）数据不完美：作为技术人，我们必须知道应用中数据的异常情况，如噪声、缺失值、异常值等，这就需要鲁棒性测试来评估模型在不理想情况下的表现；

　　2）模型稳定性：通过鲁棒性测试，确保模型在面对不同数据扰动时仍具有稳定的预测性能；

　　3）模型可靠性：通过鲁棒性测试，提升模型在实际场景中的可靠性，防止模型因数据问题表现失常；

　　3、鲁棒性测试方法

　　关于模型算法鲁棒性测试方法包含多种，这里我就介绍常用的方法：

　　1）噪声注入：通过向数据集中添加不同类型的噪声（如高斯噪声、椒盐噪声等），评估模型在噪声数据下的表现，这种方法也可以测试模型对数据间不确定性的抗干扰能力；

　　2）模拟数据缺失：通过随机删除数据集中的部分数据(重要的数据)，模拟在数据缺失情况下，评估模型的表现，主要测试模型对不完美数据的抗干扰能力；

　　3）异常值处理：通过引入异常值并评估模型在其存在条件下的表现，检测模型对异常数据的处理能力，可以测试模型在数据出现异常时的稳定性；

　　4）数据分布变化：通过引入分布不同的数据集(主要是测试数据集)来测试模型的泛化能力和对数据分布变化的适应度；

　　5）降维：通过对特征进行选择或降维处理，测试模型在数据维度降低时的表现；

　　这里说一下，常见的降维技术：主成分分析、线性判别分析、核PCA、t-SNE等。

　　5-1)主成分分析：即PCA，通过找到数据集的主成分，将数据投影到一个较低维的子空间中；

　　5-2) 线性判别分析：即LDA，通过最大化类间方差与类内方差的比值来找到最优特征子空间；

　　5-3) 核PCA：一种非线性降维方法，通过核技巧将数据映射到高维空间，再进行主成分分析(PCA)；

　　5-4)t-SNE：一种常用于数据可视化的降维技术，特别适用于高维数据的非线性降维。

　　6）交叉验证：模型训练常用的方法，将数据集(训练集/验证集/测试集)分割多个子集，用不同的子集训练和测试模型，来评估模型的稳定性和泛化能力。

　　这里说明一下，不仅仅有交叉验证，还有K-折，S-折等，我会在后面的模型测试方法中详细拓展。

　　同样，便于你对测试方法的理解，我也展示工作中的一些代码示例。

　　示例一：高斯噪声注入

　　示例二：模拟数据缺失

　　通过以上两个实例，希望能提升你对噪声注入和模拟数据缺失两种测试方法的理解。

　　4、鲁棒性测试流程

　　鲁棒性测试在模型算法测试流程，与传统测试或模型算法模糊测试、蜕变测试等流程大体一致，但是，也会有些区别，这里我就针对鲁棒性测试，进行拓展与介绍。

　　鲁棒性测试流程，同样包含：测试规划、数据准备、模型测试、结果分析。

　　但是这里我要详细介绍一些不一样的内容。

　　1）测试规划：

　　测试方法选定：噪声注入、数据缺失模拟、对抗样本等；

　　测试数据准备：与实际测试场景相符合的数据，记住，这一点很重要；

　　选定评估指标：根据不同的模型类型，设定不同的评估指标，如分类模型、聚类模型等等，评估指标还是有差异的。

　　2）数据准备：

　　准备不同类型、不同维度的数据，如：

　　生成或引入噪声：在测试数据集中引入噪声；

　　模拟缺失数据：通过随机删除等方式模拟数据缺失情况；

　　对抗样本生成：使用对抗样本生成技术合成对抗样本；

　　3) 模型测试：

　　针对上面准备数据的维度，对应进行测试，如：

　　噪声注入测试：在引入噪声数据集上测试模型性能；

　　缺失值测试：在缺失数据集上测试模型表现；

　　对抗样本测试：在对抗样本集合上评估模型鲁棒性；

　　4) 模型结果评估与分析：

　　针对不同结果进行分析、不限于：比对分析、优化方案、改进措施等。

　　5) 报告编写

　　基于上面流程和测试结果，编写测试报告。

　　在上面5点流程中，我们需要重点关注方案设定、数据准备和模型测试，因为这直接影响到模型的结果。

　　5、总结

　　鲁棒性测试是模型算法测试的重要组成部分，通过在不同数据条件下对模型进行全面评估，确保其在实际应用场景中的可靠性和稳定性。

　　当然，通过这篇，也希望你不仅仅能知道什么是鲁棒性测试，鲁棒性测试在模型服务中的应用，以及鲁棒性测试的流程及方法，同时，也希望你能通过在项目中的实际应用，来提升与优化更符合你的企业的模型算法的鲁棒性测试。

文末了：

可以到我的个人号：atstudy-js，可以免费领取一份10G软件测试工程师面试宝典文档资料。同时我邀请你进入我们的软件测试学习交流平台，大家可以一起探讨交流软件测试，共同学习软件测试技术、面试等软件测试方方面面，了解测试行业的最新趋势，助你快速进阶Python自动化测试/测试开发，稳住当前职位同时走向高薪之路。

软件测试小仙女

博客等级

码龄6年

366
原创

1788
点赞

2824
收藏

1235
粉丝

关注

私信

热门文章

最新评论

车载测试：详解ADAS传感器（相机）标定数据采集方法
fjiemin: 第4 标定板外参图像拍摄这个是不是内参标定啊
什么是Python爬虫？一篇文章带你全面了解爬虫
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
AI测试干货！实例讲解AI自动生成测试用例
m0_49346729: 有成熟的平台吗
如何使用python实现高通工具自动化？两个工具QXDM&QCAT教会你！
frankgogoland: 麻烦，还是用第三方工具吧，比如cellular pro
技术分享：如何用pytest_addoption切换自动化测试环境？
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616690233?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。