AI算法测试

Alyson_jm

已于 2024-05-21 15:12:04 修改

阅读量487

点赞数 3

分类专栏：测试文章标签：人工智能算法

于 2024-05-21 14:59:49 首次发布

本文链接：https://blog.csdn.net/Alyson_jm/article/details/139093016

版权

测试专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、人工智能

人工智能是什么

人工智能，英文 Artificial Intelligence，简称 AI，是利用机器学习技术模拟、延伸和扩展人的智能的理论、方法、技术及应用的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

通俗的说，就是让机器可以像人类一样有智能，让机器看得懂、听得懂、会思考、能决策、能行动，实现原来只有人类才能完成的任务。

人工智能（AI）的本质

AI 的本质是通过软件来实现特定的算法。

一个优秀的人工智能系统，应该具有三个方面的特征：知识运用的能力、从数据或经验中学习的能力、处理不确定性的能力。

知识运动的能力

知识是智能体现的一个最重要的维度。听说看能力如果不考虑内容的深度，则仅仅是停留在感知智能的层面，只能与环境交互和获取环境的信息，其智能表现的空间非常有限。一个智能系统应该能够很好的存储与表示、运用知识，并基于知识进行归纳推理。

学习能力

从数据中或过去的经验中学习的能力，这通常需要运用机器学习算法。具备一个不断进化和进步的学习能力，那么就可能具备更高的智能水平。同时，学习过程应该能够融入尽可能多的知识类信息，才能够达到支持智能系统的要求。

不确定性处理能力

能够很好地处理数据中不确定性，像噪声、数据属性缺失，模型决策的不确定性，甚至模型内部参数的不确定性。无人驾驶系统就需要处理各种各样的不确定性如环境的不确定性、决策的不确定性。

人工智能（AI）的 “智力” 层级

人工智能分为弱人工智能和强人工智能，前者让机器具备观察和感知的能力，可以做到一定程度的理解和推理。而强人工智能期待让机器获得自适应能力，解决一些之前没有遇到过的问题。

也有人将人工智能分为弱人工智能、一般人工智能和强人工智能，后超级人工智能。

人工智能分为弱人工智能和强人工智能，前者让机器具备观察和感知的能力，可以做到一定程度的理解和推理。目前的科研都集中在弱人工智能这部分。而强人工智能期待让机器获得自适应能力，解决一些之前没有遇到过的问题。

2017 年发布的一项针对 AI 研究人员的调查报告称，高级机器智能（HLMI）实现的总体平均估计值是到 2061 年。

人工智能（AI）的应用领域

目前人工智能应用最广泛的领域主要有四个，分别是语音识别和自然语言处理、图像识别与处理、推荐系统、机器学习。

语音识别，如语音的自动翻译、语音转文字等。目前微软的语音识别技术已经达到了人类同等水平，翻译机器人已经超越专业翻译水准。

图像识别，如高速车牌识别、人脸识别等，目前已经广泛应用在道路监控、停车场、门禁、金融系统访问身份识别等领域。刷脸解锁、刷脸支付也已经进入我们生活的很多领域。

推荐系统，如电商系统根据用户的购买习惯，推荐可能需要购买的产品；今日头条的内容推荐算法等。

二、人工智能和机器学习的关系

人脑具备不断积累经验的能力，依赖经验我们便具备了分析处理的能力，比如我们要去菜场挑一个西瓜，别人或者自己的经验告诉我们色泽青绿、根蒂蜷缩、敲声浑响的西瓜比较好吃。我们具备这样的能力，那么机器呢？机器不是只接收指令，处理指令吗？和人脑类似，可以喂给机器历史数据，机器依赖建模算法生成模型，根据模型便可以处理新的数据得到未知属性。许多机器学习系统所解决的都是无法直接使用固定规则或者流程代码完成的问题，通常这类问题对人类而言却很简单。比如，手机中的计算器程序就不属于具备智能的系统，因为里面的计算方法都有清楚而固定的规程；但是如果要求一台机器去辨别一张照片中都有哪些人或者物体，这对我们人类来讲非常容易，然后机器却非常难做到。

机器学习所研究的主要内容，是关于在计算机上从数据中产生 “模型” 的算法。即学习算法，有了学习算法，我们把数据提供给它，它就能基于这些数据产生模型；在面对新的数据时，模型会给我们提供相应的预测结果。

机器学习的按学习方式来可以划分四类：监督学习、无监督学习、半监督学习和强化学习。

监督学习指的就是我们给学习算法一个数据集。这个数据集由 “正确答案” 组成。关注的是对事物未知表现的预测，一般包括分类问题和回归问题。

无监督学习，指在数据集中没有 “正确答案”，期望从数据本身发现一些潜在的规律，无监督学习倾向于事物本身特性的分析，常用的技术包括数据降维和聚类问题。

半监督学习，训练数据集中有一部分答案，一部分没答案的称为半监督学习。

强化学习相对来说比较复杂，是指一个系统和外界环境不断地交互，获得外界反馈，然后决定自身的行为，达到长期目标的最优化。也就是从一开始什么都不懂, 通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法。比如 AlphaGo 用的深度强化学习。

机器学习

机器学习三要素包括数据、模型、算法。简单来说，这三要素之间的关系，可以用下面这幅图来表示

总结成一句话：算法通过在数据上进行运算产生模型。

数据标注

如图中不同的动物，给它们分别打上正确的标记。通过算法训练后，达到正确分类的目的。要进行机器学习，首先要有数据。有了数据之后，再对数据进行标注，利用人工标注的数据给到机器进行学习，使机器智能化。

AI算法模型测试

模型评估

泛化能力指的是学习方法对未知数据的预测能力。就好比运动员平时都是在训练场进行训练，而评估运动员的真实实力要看在大赛中的表现。

我们实际希望的，是在新样本上能表现得很好的学习器，为了达到这个目的，应该从训练样本中尽可能推演出适用于所有潜在样本的 “普通规律”，这样才能在遇到新样本时做出正确的预测，泛化能力比较好。

当学习器把训练样本学得 “太好” 了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为 “过拟合 “，与之相对是 “欠拟合” 指的是对训练样本的一般性质尚未学习。

有多种因素可能导致过拟合，其中最常见的情况是由于学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由于学习能力低下而造成的。

衡量标准

准确率、召回率、F1

人工智能领域两个最基本指标是召回率 (Recall Rate) 和准确率 (Precision Rate)，召回率也叫查全率，准确率也叫查准率，概念公式:

◦召回率 (Recall) = 系统检索到的相关文件 / 系统所有相关的文件总数

◦准确率 (Precision) = 系统检索到的相关文件 / 系统所有检索到的文件总数

在不同的领域，对召回率和准确率的要求不一样。如果是做搜索，那就是保证召回的情况下提升准确率；如果做疾病监测、反垃圾，则是保准确率的条件下，提升召回。所以，在两者都要求高的情况下，可以用 F1 来衡量。

质量属性

鲁棒性 (robustness)，也就是所说健壮性，简单来说就是在模型在一些异常数据情况下是否也可以比较好的效果。也就是我们在最开始讲人工智能三个特征中的处理不确定性的能力。

比如人脸识别，对于模糊的图片，人带眼镜，头发遮挡，光照不足等情况下的模型表现情况。算法鲁棒性的要求简单来说就是 “好的时候” 要好，“坏的时候” 不能太坏。在 AlphaGo 和李世石对决中，李世石是赢了一盘的。李世石九段下出了 “神之一手” Deepmind 团队透露：错误发生在第 79 手，但 AlphaGo 直到第 87 手才发觉，这期间它始终认为自己仍然领先。这里点出了一个关键问题：鲁棒性。人类犯错：水平从九段降到八段。机器犯错：水平从九段降到业余。
测试方法就是用尽可能多的异常数据来覆盖进行测试。

模型安全，攻击方法有：试探性攻击、对抗性攻击两种

在试探性攻击中，攻击者的目的通常是通过一定的方法窃取模型，或是通过某种手段恢复一部分训练机器学习模型所用的数据来推断用户的某些敏感信息。主要分为模型窃取和训练数据窃取

对抗性攻击对数据源进行细微修改，让人感知不到，但机器学习模型接受该数据后做出错误的判断。比如图中的雪山，原本的预测准确率为 94%，加上噪声图片后，就有 99.99% 的概率识别为了狗。

响应速度是指从数据输入到模型预测输出结果的所需的时间。对算法运行时间的评价。

业务测试，包括业务逻辑测试，业务 & 数据正确性测试。主要关注业务代码是否符合需求，逻辑是否正确，业务异常处理等情况。可以让产品经理提供业务的流程图，对整体业务流程有清晰的了解。

白盒测试，先让算法工程师将代码的逻辑给测试人员讲解，通过讲解理清思路。然后测试做代码静态检查，看是否会有基本的 bug。可以使用 pylint 工具来做代码分析。

模型监控，项目发布到线上后，模型在线上持续运行，需要以固定间隔检测项目模型的实时表现，可以是每隔半个月或者一个月，通过性能指标对模型进行评估。对各指标设置对应阀值，当低于阀值触发报警。如果模型随着数据的演化而性能下降，说明模型已经无法拟合当前的数据了，就需要用新数据训练得到新的模型。

大数据辅助，机器学习算法训练和验证是一个持续改进的过程。当数据量逐步放大时候，如何统计算法的准确率呢？这个时候需要引入大数据技术针对数据结果进行统计，根据周期性统计的准确率结果生成线性报表来反馈算法质量的变化。