值得信赖的AI：从原则到实践(Trustworthy AI: From Principles to Practices)-CSDN博客

本文链接：https://blog.csdn.net/qq_29868553/article/details/144487155

在这里插入图片描述

原文地址
期刊：ACM Computing Surveys
影响因子：23.8

摘要

人工智能（Artificial Intelligence，AI）技术的快速发展使得基于AI的各种系统得以部署，然而，目前的许多AI系统都容易受到不可感知的攻击，对代表性不足的群体有偏见，缺乏用户隐私保护。这些缺点降低了用户体验，削弱了人们对所有AI系统的信任。在这篇综述中，我们为人工智能从业者提供了一个构建可信人工智能系统的全面指南。我们首先介绍了人工智能可信度重要方面的理论框架，包括鲁棒性，泛化性，可解释性，透明度，可重复性，公平性，隐私保护和问责制。为了统一当前可用但分散的方法以实现值得信赖的人工智能，我们以一种系统的方法来组织它们，该方法考虑人工智能系统的整个生命周期，从数据采集到模型开发，到系统开发和部署，最后到持续监控和治理。在此框架内，我们为从业者和社会利益相关者提供了具体的行动项目（例如，研究人员、工程师和监管机构）来提高人工智能的可信度。最后，我们确定了值得信赖的人工智能系统未来发展的关键机遇和挑战，我们确定了向全面值得信赖的人工智能系统转变的必要性。

1 Introduction

人工智能（AI）的快速发展为社会带来了巨大的经济和社会效益，随着AI在交通、金融、医疗、安全和娱乐等领域的广泛应用，越来越多的社会意识到我们需要这些系统是值得信赖的。这是因为，鉴于这些人工智能系统的普遍性，违背利益相关者的信任可能导致严重的社会后果。此类违规行为的范围从自动化系统在招聘和贷款决策中的偏见对待[49，146]到人员生命损失[52]。相比之下，人工智能从业者，包括研究人员、开发人员和决策者，传统上都是考虑系统性能（即，准确性）成为其工作流程中的主要指标。这一指标远远不足以反映人工智能系统的可信度。除了系统性能之外，人工智能系统的各个方面都应该被考虑以提高它们的可信度，包括但不限于它们的鲁棒性、算法公平性、可解释性和透明性。虽然关于人工智能可信度的最活跃的学术研究都集中在模型的算法属性上，但仅靠算法研究的进步还不足以构建可信的人工智能产品。从行业角度看，AI产品的生命周期包括多个阶段，包括数据准备、算法设计、开发和部署，以及运营、监控和治理。在任何单个方面（例如，鲁棒性）涉及在该生命周期中的多个阶段的努力，例如，数据清理、可靠的算法、异常监控和风险审核。相反，任何一个环节或方面的失信行为都可能破坏整个系统的可信度。因此，人工智能可信度应该在人工智能系统的整个生命周期中系统地建立和评估。

除了全面了解人工智能系统在其生命周期的各个阶段的可信度外，重要的是要了解人工智能可信度不同方面的整体情况。除了通过为每个特定方面建立要求来追求人工智能的可信度之外，我们还呼吁注意这些方面的组合和相互作用，这些方面对于可信的现实世界人工智能系统来说是重要的和未充分探索的主题。例如，对数据隐私的需求可能会干扰详细解释系统输出的愿望，而对算法公平性的追求可能会损害某些群体所经历的准确性和鲁棒性[284，361]。因此，简单地组合系统来分别提高可信度的每个方面并不能保证更可信和更有效的最终结果。相反，需要在可信度的多个方面之间进行精心设计的联合优化和权衡[47，158，331，361，380]。

这些事实表明，有必要采用系统的方法将当前的AI范式转变为可信度。这需要多学科利益相关者的意识和合作，他们致力于可信度的不同方面和系统生命周期的不同阶段。我们最近目睹了关于可信人工智能的多学科研究的重要发展。从技术的角度来看，可信AI促进了对抗学习、私人学习以及机器学习（ML）的公平性和可解释性的发展。最近的一些研究从研究[182，218，357]或工程[57，62，199，338，353]的角度组织了这些发展。非技术领域的发展也在一些研究中进行了审查，涉及指南[145，178，294]，标准化[210]和管理过程[31，274，301]。我们在附录的A.2节中对各种评论进行了详细分析，包括算法研究，工程实践和制度化。这些零散的评论主要集中在对值得信赖的人工智能的具体看法上。为了从系统的角度同步这些不同的发展，我们以一种可访问的方式为人工智能从业者组织多学科知识，并在工业系统的生命周期背景下提供可操作的系统化指导，以构建值得信赖的人工智能系统。我们的主要贡献如下：

我们剖析了人工智能系统在工业应用中的开发和部署的整个生命周期，并讨论了如何在每个阶段（从数据到人工智能模型，从系统部署到运行）增强人工智能的可信度。我们提出了一个系统框架来组织实现可信人工智能的多学科和碎片化方法，并建议将其作为一个连续的工作流程，以纳入人工智能系统生命周期每个阶段的反馈。
我们剖析了人工智能系统在工业应用中的整个开发和部署生命周期，并讨论了如何在每个阶段（从数据到人工智能模型，从系统部署到运行）增强人工智能的可信度。我们提出了一个系统框架来组织实现可信人工智能的多学科和碎片化方法，并进一步建议将人工智能可信性作为一个连续的工作流程来整合人工智能系统生命周期每个阶段的反馈。我们还分析了实践中可信度不同方面之间的关系（相互增强，有时是权衡）。其目的是为人工智能系统的利益相关者，如研究人员、开发人员、运营商和法律专家，提供易于理解且全面的指南，以快速了解人工智能可信度的方法（第 3 节）。
我们讨论了值得信赖的人工智能所面临的突出挑战，研究界和工业从业者在不久的将来应重点关注这些挑战。我们确定了几个关键问题，包括需要对人工智能可信度的几个方面（例如稳健性、公平性和可解释性）有更深入和基本的了解、用户意识的重要性以及促进跨学科和国际合作（第 4 节）。

通过这些贡献，我们的目标不仅是为人工智能系统的从业者和利益相关者提供人工智能可信的基础和未来的全面介绍，还为如何构建可信的人工智能系统提供操作指南。

2 人工智能可信度：超越预测准确性

机器学习技术在过去几十年的成功很大程度上得益于基于准确性的性能测量。通过根据定量准确性或损失评估任务绩效，训练人工智能模型在优化意义上变得易于处理。同时，预测准确性被广泛用来表明人工智能产品相对于其他产品的优越性。然而，随着人工智能近年来的广泛应用，单纯测量精度的局限性面临着许多新的挑战，从针对人工智能系统的恶意攻击到违反人类价值观的人工智能滥用。为了解决这些问题，人工智能社区在过去十年中已经意识到，在构建人工智能系统时，应该考虑和改进准确性以外的因素。许多企业[57,62,136,166,254,338]，学术界[122,199,218,301,322]，公共部门和组织[9,210,334]最近识别了这些因素并进行了总结作为人工智能可信度的原则。它们包括稳健性、安全性、透明度、公平性和安全性[178]。参考文献 [145, 178] 中提供了与这些原则相关的综合统计数据以及这些原则之间的比较。在本文中，我们研究了最近引起广泛关注且与实际应用密切相关的代表性原理。这些原则可分为以下几类：

我们考虑与当前人工智能系统面临的技术挑战有关的代表性要求。我们回顾了最近技术研究中引起广泛兴趣的方面，包括稳健性、可解释性、透明度、1可重复性和泛化性。
我们考虑了最近文献中广泛关注的道德要求[9,57,121,334]，包括公平、隐私和问责制。

在本节中，我们将说明每个要求的动机和定义。我们还调查了评估每项要求的方法。还应该注意的是，所选择的需求并不是正交的，并且其中一些需求是密切相关的。我们在本节中解释与相应要求的关系。我们还使用图 1 来可视化各方面之间的关系，包括权衡、贡献和表现。

在这里插入图片描述

图 1. 本次调查中讨论的人工智能可信度不同方面之间的关系。请注意，方面之间广泛存在隐式交互，我们仅涵盖代表性的显式交互。

2.1 鲁棒性

一般来说，鲁棒性是指算法或系统处理执行错误、错误输入或看不见的数据的能力。鲁棒性是影响人工智能系统在实证环境中性能的重要因素。缺乏稳健性还可能导致系统出现意外或有害行为，从而降低其安全性和可信度。在机器学习系统的背景下，术语“鲁棒性”适用于多种情况。在这篇评论中，我们通过分别在数据、算法和系统层面对漏洞进行分类，非详尽地总结了人工智能系统的鲁棒性。

数据。随着人工智能系统的广泛应用，人工智能模型的部署环境变得更加复杂和多样化。如果训练人工智能模型时不考虑不同场景下数据的多样化分布，那么其性能可能会受到显着影响。对抗分布变化的鲁棒性一直是人工智能各种应用中的一个常见问题[19]。在高风险应用中，由于其对安全和保障的负面影响，这个问题更加严重。例如，在自动驾驶领域，除了开发在晴天场景下工作的感知系统外，学术界和工业界正在通过大量的开发和测试策略来增强车辆在夜间/雨天场景下的感知性能，以保证系统在恶劣环境下的可靠性。各种天气条件 [318, 382]。

算法。人们普遍认为，人工智能模型可能容易受到恶意对手的攻击。在各种形式的攻击中，对抗性攻击及其防御近年来引起了学术界和工业界的关注。文献将对抗性攻击的威胁分为几个典型方面，并提出了各种防御方法[12,69,213,304,373]。例如，在参考文献[340]中，对抗性攻击根据攻击时机进行了分类。决策时攻击会扰乱输入样本，从而误导给定模型的预测，从而使攻击者可以逃避安全检查或冒充受害者。训练时攻击将精心设计的样本注入训练数据中，以改变系统对特定模式的响应，也称为中毒攻击。考虑到攻击的实用性，注意到攻击在执行空间方面的差异也很有用。传统的研究主要集中在特征空间攻击上，这些攻击直接作为模型的输入特征生成。在许多实际场景中，对手可以仅修改输入实体来间接产生与攻击相关的特征。例如，某人很容易佩戴对抗性图案眼镜来逃避人脸验证系统，但很难修改内存中的图像数据。关于产生可实现的基于实体的攻击（问题空间攻击）的研究最近引起了越来越多的兴趣[325, 358]。除了直接误导人工智能模型之外，算法级威胁还可能以多种形式存在。模型窃取（又称探索性攻击）试图窃取有关模型的知识。虽然它不会直接改变模型行为，但窃取的知识对于生成对抗性样本具有重要价值[329]。

系统。在现实的人工智能产品中，还应该仔细考虑针对非法输入的系统级鲁棒性。在实际情况中，非法投入的情况可能极其多样。例如，分辨率非常高的图像可能会导致不完善的图像识别系统挂起。自动驾驶车辆的激光雷达感知系统可能会感知其他车辆中的激光雷达发射的激光束并产生损坏的输入。演示攻击[275]（又名欺骗攻击）是近年来引起广泛关注的另一个例子。它通过照片或面具等方式伪造输入来欺骗生物识别系统。

人们已经探索了各种方法来防止人工智能系统中的漏洞。防御的目标可以是主动的或被动的[227]。主动防御试图优化人工智能系统，使其对各种输入更加鲁棒，而被动防御旨在检测潜在的安全问题，例如改变分布或对抗样本。第 3 节介绍了提高人工智能系统鲁棒性的代表性方法。

评估。评估人工智能系统的鲁棒性是避免漏洞、控制风险的重要手段。我们简要描述两组评估：稳健性测试和数学验证。

稳健性测试。测试不仅是评估和增强传统软件鲁棒性的重要方法，也是评估和增强人工智能系统鲁棒性的重要方法。传统的功能测试方法，例如猴子测试[115]，提供了评估系统级稳健性的有效方法。此外，正如第 3.3.1 节中将介绍的，软件测试方法最近已扩展到评估对抗性攻击的稳健性 [226, 260]。

与功能测试相比，性能测试（即基准测试）是机器学习领域更广泛采用的方法，用于从各个维度评估系统性能。具有各种分布的测试数据集用于评估机器学习研究中数据的稳健性。在对抗性攻击的背景下，最小对抗性扰动是鲁棒性的核心度量，其在测试数据集上的经验上限（又称经验鲁棒性）已被广泛使用[65, 312]。从攻击者的角度来看，攻击的成功率也直观地衡量了系统的鲁棒性[312]。

数学验证。继承于形式方法理论，人工智能模型对抗鲁棒性的认证验证引起了越来越多的兴趣。例如，对抗鲁棒性可以通过推导对人工智能模型的攻击的最小失真的非平凡且经过认证的下界来反映[51, 379]。我们在第 3.2.1 节中介绍了这个方向。

2.2 Generalization

泛化长期以来一直是机器学习模型中令人担忧的一个问题。它代表了从有限的训练数据中提取知识以对未见过的数据做出准确预测的能力[133]。尽管泛化并不是可信人工智能背景下经常提到的方向，但我们发现它对人工智能可信度的影响不容忽视，值得具体讨论。一方面，泛化要求人工智能系统对现实数据进行预测，甚至是对它们未受过训练的领域或分布进行预测[133]。这极大地影响了实际系统的可靠性和风险。另一方面，人工智能模型应该能够泛化，而不需要详尽地收集和注释各个领域的大量数据[343, 391]，以便在广泛的应用中部署人工智能系统更加经济实惠和可持续。

在机器学习领域，泛化理论的规范研究主要集中在未见过的数据的预测上，这些数据通常与训练数据具有相同的分布[133]。尽管人工智能模型可以在训练数据集上达到合理的准确性，但众所周知，它们的训练和测试准确性之间存在差距（又称泛化差距）。人们研究了从统计学习到深度学习等不同领域的方法来分析这个问题并增强模型的泛化能力。交叉验证、正则化和数据增强等典型代表可以在许多机器学习教科书中找到[133]。现代数据驱动的人工智能模型的创建在训练阶段需要大量的数据和注释。这导致制造商和用户重新收集和重新注释数据以训练每个任务的模型的成本很高。成本凸显了将模型的知识泛化到不同任务的需要，这不仅降低了数据成本，而且在许多情况下还提高了模型性能。人们已经探索了各种研究方向来解决迁移学习范式内不同场景和配置下的知识泛化问题[255, 350]。我们回顾了第 3.2.2 节中的代表性方法。

泛化的包容性概念与人工智能可信度的其他方面，尤其是鲁棒性密切相关。在机器学习的背景下，针对分布变化的鲁棒性（第 2.1 节）也被认为是泛化问题。这意味着鲁棒性和泛化性的要求有一些重叠的方面。对抗鲁棒性和泛化性之间的关系更为复杂。正如参考文献[362]中所证明的，对小扰动具有鲁棒性的算法具有更好的泛化性。然而，最近的研究 [271, 331] 指出，通过对抗性训练提高鲁棒性可能会降低测试准确性并导致更差的泛化能力。为了解释这种现象，参考文献[116]认为对抗鲁棒性对应于可能损害模型泛化的不同数据分布。

评估。对各种分布的测试数据集进行基准测试是一种广泛使用的方法，用于评估现实场景中人工智能模型的泛化能力。领域泛化的常用数据集和基准的摘要可以在参考文献[391]中找到，涵盖对象识别、动作识别、分割和人脸识别的任务。

在理论评估方面，过去的机器学习研究开发了丰富的方法来衡量模型泛化误差的界限。例如，Rademacher 复杂度 [35] 通常用于确定模型对类标签随机分配的拟合程度。此外，Vapnik-Chervonenkis (VC) 维度 [337] 是可学习函数集的容量/复杂性的度量。 VC维数越多表示容量越高。

DNN 的进步导致了泛化理论的新发展。参考文献[377]观察到，现代深度学习模型尽管容量巨大，但仍能实现泛化差距。这一现象引发了学术界对深度神经网络（DNN）泛化的讨论[23, 39]。例如，参考文献[39]从偏差-方差权衡的角度研究了泛化能力，以解释和评估DNN的泛化能力。

2.3 可解释性和透明度

复杂人工智能系统的不透明性引起了学术界、工业界和社会的广泛关注。 DNN 如何优于其他传统机器学习方法的问题一直困扰着研究人员 [24]。从实际系统的角度来看，用户对人工智能产品的意图、商业模式和技术机制有知情权的需求[9, 135]。各种研究从术语（包括可解释性、可解释性和透明度）角度解决了这些问题[5,24,47,141,216,250]，并深入研究了不同的定义。为了使我们的讨论更加简洁和有针对性，我们缩小了可解释性和透明度的范围，分别解决理论研究和实践系统中的上述问题。

可解释性旨在理解人工智能模型如何做出决策[24]。
透明度将人工智能视为一个软件系统，并寻求披露有关其整个生命周期的信息（参见参考文献[9]中的“透明操作”）。

2.3.1 可解释性

可解释性，即理解人工智能模型如何做出决策，是现代人工智能研究的核心，也是决定人工智能技术信任度的基本因素。人工智能可解释性的动机来自各个方面[24, 25]。从科学研究的角度来看，理解人工智能系统中数据、参数、过程和结果的所有内在机制是有意义的。这些机制也从根本上决定了人工智能的可信度。从构建人工智能产品的角度来看，可解释性存在多种实际需求。对于银行高管等运营商来说，可解释性有助于理解人工智能信用系统，以防止其潜在缺陷[25, 184]。像贷款申请人这样的用户有兴趣知道他们被模型拒绝的原因，以及他们可以采取哪些措施来获得资格[25]。有关可解释性的各种动机的详细分析，请参阅参考文献[25]。

在过去的五年里，解释 ML 模型不仅是 ML 研究中的一个活跃话题，也是心理学研究中的一个活跃话题 [5,24,47,141,216,250]。尽管人工智能模型的可解释性的定义仍然是一个悬而未决的问题，但研究试图从人工智能[141, 285]和心理学[144, 245]的角度来解决这个问题。综上所述，相关研究将可解释性分为两个层面进行解释。

通过设计建立模型的可解释性。在过去半个世纪的机器学习研究中，设计了一系列完全或部分可解释的机器学习模型。代表包括线性回归、树、k近邻（KNN）、基于规则的学习器、广义加性模型和贝叶斯模型[24]。可解释模型的设计仍然是机器学习中的一个活跃领域。
事后模型的可解释性。尽管上述传统模型具有良好的可解释性，但更复杂的模型（例如 DNN 或梯度提升决策树（GDBT））在最近的工业人工智能系统中表现出了更好的性能。由于相关方法仍无法全面解释这些复杂模型，研究人员转向事后解释。它通过分析模型的输入、中间结果和输出来解决模型的行为。这种情况下的代表性类别通过使用可解释的 ML 模型（即解释器，例如线性模型 [225, 279] 和规则 [140, 280]）在全局或局部近似决策面。对于卷积神经网络 (CNN) 或 Transformer 等深度学习模型，中间特征的检查是解释模型行为的广泛使用的手段 [332, 366]。

可解释性方法是机器学习领域的一个活跃工作领域，并已在各种研究中进行了全面调查 [24,47,141,250]。实现上述两个可解释性级别的代表性算法在第 3.2.3 节中进行了回顾。

评估。除了解释人工智能模型的问题之外，可解释性的统一评估也被认为是一个挑战。造成这种情况的一个主要原因在于可解释性的心理轮廓的模糊性。为了回避这个问题，各种研究使用定性指标来评估人类参与的可解释性。代表性的方法包括以下：

人的主观评价。这种情况下的评估方法包括访谈、自我报告、问卷调查和案例研究，用于衡量用户满意度、心理模型和信任等[144,155,267]。
人类-人工智能任务绩效。在人类与人工智能协作执行的任务中，协作性能受到人类对人工智能协作者的理解的显着影响，并且可以被视为解释质量的反映[249]。该评估已用于推荐系统[198]和数据分析[132]等的开发。

此外，如果解释器可以实现可解释性，那么解释器的性能，例如近似精度（保真度[140,279,280]），可以用来间接和定量地评估可解释性[16]。尽管有上述评估，可解释性的直接定量测量仍然是一个问题。模型复杂性的一些简单测量，例如树深度 [46] 和规则集的大小 [202]，已在之前的工作中作为替代可解释性指标进行了研究。我们相信统一的定量指标是基础人工智能研究的核心。最近对机器学习模型复杂性[162]及其认知功能复杂性[347]的研究可能会启发未来对统一定量评估指标的研究。

2.3.2 透明度

透明度要求公开系统上的信息，并且长期以来一直是软件工程中公认的要求[89, 207]。在人工智能行业中，这一要求自然涵盖了人工智能系统的生命周期，并帮助利益相关者确认其中反映了适当的设计原则。以用于识别的生物识别系统为例。用户通常关心收集其生物识别信息的目的及其使用方式。业务运营者关心的是针对攻击的准确性和鲁棒性，以便控制风险。政府部门关心人工智能系统是否遵循指导方针和法规。总体而言，透明度是建立公众对人工智能系统信任的基本要求[22,178,189]。

为了使人工智能系统的生命周期透明，需要公开有关其创建的各种信息，包括设计目的、数据源、硬件要求、配置、工作条件、预期用途和系统性能。一系列研究探讨了如何通过适当的文件来披露这些信息 [22, 129, 156, 246, 265]。这将在第 3.5.1 节中讨论。开源系统的最新趋势也极大地提高了人工智能系统的算法透明度。由于人工智能系统的内部过程复杂且动态，有关其创建的事实不足以充分揭示其机制。因此，在各种场景下，还应该考虑运行时流程和决策的透明度。对于交互式人工智能系统，适当设计的用户界面是公开底层决策过程的重要手段[10]。在许多安全关键系统中，例如自动驾驶车辆，日志系统[29,261,369]被广泛采用来跟踪和分析系统执行情况。

评估。尽管目前还没有统一的定量评估，但透明度的定性评估在人工智能行业中取得了新的进展。评估清单[10, 292]被认为是评估和提高系统透明度的有效手段。在用户或公众的心理背景下，用户研究或A/B测试可以提供基于用户满意度的有用评估[249]。近年来，人们还对人工智能文档的质量评估进行了探索。一些研究[22、129、156、246、273]提出了指导和评估人工智能系统文档的标准实践。参考文献[265]总结了更具体评估的一般定性维度。

2.4 Reproducibility

现代人工智能研究涉及数学推导和计算实验。这些计算过程的可重复性是验证人工智能研究的重要步骤。就人工智能可信度而言，这种验证有助于检测、分析和缓解人工智能系统中的潜在风险，例如特定输入的漏洞或意外偏差。随着人工智能研究界开放合作生态系统的逐步建立，可重复性逐渐成为研究人员和开发人员关注的问题。除了能够有效验证研究之外，可重复性还使社区能够快速将最新方法转化为实践或进行后续研究。

人工智能研究界出现了一种新趋势，在公开研究时将可重复性作为一项要求[142]。我们看到神经信息处理系统（NeurIPS）、国际机器学习会议（ICML）和ACM多媒体（ACMMM）等主要会议引入了与可重复性相关的政策或计划[263]，以鼓励作品的可重复性。为了获得明确的评估，在 ACM Artifact Review and References [106, 143] 等著作中研究了可重复性程度。例如，在参考文献[143]中，最低程度的再现性要求使用相同的实现和数据精确复制实验，而更高程度的再现性则需要使用不同的实现或数据。除了研究的基本验证之外，更高程度的可重复性还可以通过区分影响有效性的关键因素来促进对研究的更好理解。

最近开发的一些大规模预训练人工智能模型，例如生成式预训练 Transformer 3 (GPT-3) 和来自 Transformers 的双向编码器表示 (BERT)，代表了人工智能研究的可重复性面临的挑战。这些模型的创建涉及专门设计的数据收集策略、大数据的高效存储、分布式集群之间的通信和调度、算法实现、适当的软硬件环境以及其他各种专有技术。应在其整个生命周期中考虑此类模型的可重复性。在最近关于机器学习再现性的研究中，这一要求已分解为数据、方法和实验的再现性[142,143,169]，其中后者涵盖了一系列生命周期工件，例如代码、文档、软件、硬件和部署配置。基于这种方法，越来越多的机器学习平台正在开发中，以帮助研究人员和开发人员以可重复的方式更好地跟踪生命周期 [169, 374]。

评估。再现性检查表最近在机器学习会议中被广泛采用，以评估提交的再现性[263]。除了出版物中实验的重复之外，参考文献 [142, 143] 还指定了清单来评估不同程度的再现性。除了检查表之外，还采用了再现性挑战和再现性论文跟踪等机制来评估出版物的再现性[118, 263]。为了定量评估挑战背景下的再现性，研究了一系列定量指标。例如，参考文献 [53, 118] 设计了度量来量化信息检索系统可以复制到其起源的程度。

2.5 公平性

当人工智能系统在招聘、财务风险评估和人脸识别等领域帮助我们时，其决策中的系统性不公平可能会产生负面的社会影响（例如，弱势群体可能在招聘决策中经历系统性劣势[49]，或者在招聘决策中受到不成比例的影响）。犯罪风险分析 [104, 146, 161]）。这不仅损害了各利益相关方对人工智能的信任，也阻碍了人工智能技术的发展和应用。因此，从业者必须牢记人工智能系统的公平性，以避免灌输或加剧社会偏见[66,105,242]。人工智能系统公平性的一个共同目标是减轻偏见的影响。缓解措施并非易事，因为在开发和应用人工智能系统的过程中，偏差可以采取多种形式，例如数据偏差、模型偏差和程序偏差[242]。偏见通常表现为基于受保护信息（例如性别、种族和民族）对不同群体进行不公平对待。因此，群体认同（有时也称为敏感变量）和系统响应（预测）是影响偏差的两个因素。有些情况还涉及给定任务的客观事实，在评估系统公平性时应考虑这些事实，例如，一个人的语音是否被正确识别或他们的面部是否被正确识别。

公平性可以适用于系统行为的多个粒度[66,242,339]。在每个粒度上，我们可能关心分配公平性或结果公平性，或者程序公平性或过程公平性（我们建议读者参考参考文献[137]进行更详细的讨论）。在每种情况下，我们通常关心人工智能系统的聚合行为和其中的偏差，这被称为统计公平性或群体公平性。在某些应用中，考虑个体公平性或反事实公平性也很有帮助，特别是当敏感变量可以更容易地与其他应合理确定系统预测的特征分离时[242]。虽然前者更广泛地适用于各种机器学习任务，例如语音识别和人脸识别，但后者在候选人筛选的简历审查等情况下可能至关重要[44]。

在群体层面，研究人员确定了三个抽象原则来对不同类型的公平进行分类[66]。我们用一个简单的例子来说明这一点，即从由 50% 男性和 50% 女性申请人组成的群体中招聘申请人，其中性别是敏感变量（示例改编自参考文献 [339, 388]）：

独立。这要求系统结果在统计上独立于敏感变量。在我们的示例中，这要求男性和女性候选人的录取率相等（称为人口平等[376]；另请参阅不同的影响[117]）。
分离。独立性并不能解释真实情况和敏感变量之间合理的相关性（例如，能够比男性候选人更容易举起 100 磅货物的女性候选人较少）。因此，分离要求独立原则成立，并以基本事实为条件。也就是说，如果工作需要实力资格，那么合格的男性和女性候选人的录取率应该相等（称为机会均等[147]；另见赔率相等[43]和准确性公平[95]）。
充分性。充分性同样考虑了基本事实，但要求在相同的系统预测条件下，真实结果和敏感变量是独立的。也就是说，鉴于模型预测的招聘决策相同，我们希望男性和女性候选人中合格候选人的比例相同（称为测试公平性 [80, 147]）。这与模型校准密切相关[266]。

请注意，这些原则在某些情况下是相互排斥的（例如，当敏感变量与基本事实相关时，独立性和分离性不能同时成立）。参考文献[187]讨论了各种公平性指标之间的权衡。此外，参考文献[84]主张对这些原则进行扩展，将预测结果和真实结果的效用考虑在内（例如，暴力犯罪中累犯的风险和成本与拘留成本相比），并且可以与敏感变量相关。我们建议读者阅读本文以进行更详细的讨论。

评估。尽管上一节概述的抽象标准很简单，但遵循这些原则，公平可以以多种不同的形式体现（有关综合调查，请参阅参考文献 [66, 356]，有关人工智能伦理检查表的参考文献 [228]）。我们根据模型和任务的属性对公平性指标进行分类，以帮助读者为他们的应用选择合适的指标：

离散变量与连续变量。任务输出、模型预测和敏感变量本质上都可以是离散的（例如分类和国籍）、排名的（例如搜索引擎、推荐系统）或连续的（例如回归、分类器分数、年龄等）。离散变量的经验相关性可以使用标准统计工具来评估，例如相关系数（Pearson/Kendall/Spearman）和方差分析（ANOVA），而连续变量通常还需要分箱、量化或损失函数来评估公平性[66] 。

损失函数。鉴于经验数据的局限性（例如，仅雇用三名候选人时，群体之间的人口统计平等），公平标准通常无法完全满足。在这种情况下，损失函数非常有用，可以衡量我们距离经验公平有多远。损失函数的选择可以根据所关注变量的性质来决定：如果变量代表概率，则似然比更有意义（例如，不同的影响[117]）；对于实值回归，可以使用每组聚合的真实值的平均距离之间的差异来指示我们对一组的建模是否明显优于另一组[59]。

多个敏感变量。在许多应用中，理想的人工智能系统应该对多个敏感变量公平（例如，对贷款带来的风险的预测应该在性别和种族方面公平；除其他外，推荐系统理想情况下应该公平地对待用户和推荐者）。当一次考虑一个变量时，人们可以在这些变量之间形成“边际公平性”的权衡，即分别评估每个变量的公平性并结合损失函数进行最终评估，或者探索完整的笛卡尔积[307] 的所有变量以实现共同公平，这通常需要更多的经验观察，但往往会满足更严格的道德要求。

2.6 隐私保护

隐私保护主要是指防止未经授权使用可以直接或间接识别个人或家庭身份的数据。这些数据涵盖的信息范围很广，包括姓名、年龄、性别、人脸图像、指纹等。对隐私保护的承诺被认为是决定人工智能系统可信度的重要因素。最近发布的人工智能道德准则也强调隐私是关键问题之一[9, 178]。政府机构正在制定越来越多的政策来规范数据隐私。《通用数据保护条例》（GDPR）是具有代表性的法律框架，推动企业采取有效措施保护用户隐私。

除了企业内部的隐私保护之外，人工智能利益相关者之间数据交换的最新发展也给隐私保护带来了新的挑战。例如，在训练医疗人工智能模型时，每个医疗机构通常只有当地居民的数据，这可能是不够的。这导致需要与其他机构合作并共同训练模型[299]而不泄露跨机构的私人信息。现有的保护技术渗透到人工智能系统的整个生命周期，以解决人们日益增长的隐私担忧。在第 3 节中，我们简要回顾了数据收集和处理、模型训练（第 3.2.5 节）和模型部署（第 3.4.4 节）中保护隐私的技术。隐私保护的实现还关系到可信AI的其他方面。例如，透明度原则广泛应用于人工智能系统中。它通知用户个人数据收集并启用隐私设置。在开发联邦学习（例如 FATE 和 PySyft）等隐私保护机器学习软件时，开源是提高透明度和证明系统保护性的常见做法。

评估。如果任何数据处理对数据隐私构成风险，则 GDPR 等数据隐私保护法律要求进行数据保护影响评估 (DPIA)。必须采取措施解决与风险相关的问题并证明遵守法律[10]。数据隐私保护专业人员和其他利益相关者需要参与评估。

先前的研究已经设计了各种数学方法来正式验证隐私保护方法的保护性。典型的验证可以在半诚实安全等假设下进行，这意味着所有参与方都遵循协议来执行计算任务，但可能会尝试从计算的中间结果推断其他方的数据（例如，参考文献[215] ）。更严格的假设是恶意攻击假设，其中每个参与方不需要遵循给定的协议，并且可以采取任何可能的措施来推断数据[214]。在实际场景中，通常会考虑对隐私泄露风险进行实证评估[283, 360]。例如，参考文献 [283] 显示 15 个人口统计属性足以使 99% 的参与者独一无二。对此类数据重新识别的评估直观地反映了设计数据收集计划时的保护性。

2.7 问责制：对上述要求的整体评估

我们描述了构建值得信赖的人工智能的一系列要求。问责制涉及对人工智能系统的监管，以遵循这些要求。随着人工智能治理法律和制度规范的逐步完善，问责成为人工智能持续造福社会的关键因素[100]。问责贯穿人工智能系统的整个生命周期，并要求人工智能系统的利益相关者有义务证明其设计、实施和操作符合人类价值观。在执行层面，这种理由是通过周到的产品设计、可靠的技术架构、对潜在影响的负责任的评估以及这些方面的信息披露来实现的[209]。请注意，在信息披露方面，透明度是促进人工智能系统问责的基本机制[94, 100]。

从问责制中还衍生出可审计性的概念，它要求对系统进行审查、评估和审计的合理性[209]。算法审计是一种公认的方法，可确保人工智能系统的问责制并评估其对人类价值观多个维度的影响[272]。另请参见第 3.5.2 节。

评估。人们已经研究了基于清单的评估来定性评估问责制和可审计性 [10, 315]。正如本节所提到的，我们认为问责制是对值得信赖的人工智能的每项具体要求的综合论证。它的实现是由对人工智能系统生命周期中这些需求的评估组成的[272]。因此，问责制的评估反映在这些可信度要求及其影响的评估程度上。

3 值得信赖的人工智能：系统方法

我们在第 2 节中介绍了与可信人工智能相关的概念。自 2010 年代初以来，不同的人工智能利益相关者一直在努力提高人工智能的可信度。在附录 A 部分中，我们简要回顾了他们最近在多学科领域的实践，包括研究、工程和监管，以及工业应用范例的研究，包括人脸识别、自动驾驶和自然语言处理 (NLP) 。这些实践在提高人工智能可信度方面取得了重要进展。然而，我们发现，从工业角度来看，这项工作仍然不够。正如第 1 节和图 2 所示，人工智能行业处于连接多学科领域以建立值得信赖的人工智能的地位。这一职位要求行业利益相关者学习和组织这些多学科方法，并确保人工智能在整个生命周期中的可信度。

在本节中，我们简要概述了用于构建值得信赖的人工智能产品的技术，并从工业角度对产品开发的整个生命周期进行了组织。如图2中的实线框所示，典型人工智能产品的开发生命周期可以分为数据准备、算法设计、开发部署和管理[26]。我们回顾了与人工智能产品在其生命周期各个阶段的可信度密切相关的几个关键算法、指南和政府法规，旨在为来自不同背景的从业者提供系统的方法和易于遵循的指南，以建立人工智能产品的可信度。值得信赖的人工智能。图 3 和表 1 总结了本节中提到的方法和文献。

在这里插入图片描述

图2. 人工智能产业在组织用户、学术界和政府等多学科从业者建立可信赖的人工智能方面发挥着承上启下的作用。在第三节中，我们讨论了人工智能系统生命周期的五个主要阶段（即数据准备、算法设计、开发、部署和管理）中目前实现可信人工智能的方法。

在这里插入图片描述

图 3. 一个查找表，从不同角度和人工智能系统生命周期的不同阶段组织了调查的人工智能可信度方法。有些方法可以从多个方面提高人工智能的可信度，并且在多个专栏中都有介绍。我们在这里通过步幅填充使这些重复的块变暗，以获得更好的可视化效果。有关方法的详细信息，请参阅第 3 节中的相应段落。

在这里插入图片描述

表 1. 第 3 节提到的方法或研究方向的代表性论文
对于研究广泛的研究方向，我们提供相应的调查报告供读者参考。对于没有可用调查的方法或研究方向，我们提供代表性的技术论文。

3.1 数据准备

当前的人工智能技术很大程度上是数据驱动的。数据的适当管理和利用不仅可以提高人工智能系统的性能，还会影响其可信度。在本节中，我们考虑数据准备的两个主要方面，即数据收集和数据预处理。我们还讨论了可信人工智能的相应要求。

3.1.1 数据收集

数据收集是人工智能系统生命周期的基本阶段。精心设计的数据收集策略有助于增强人工智能的可信度，例如在公平性和可解释性方面。

偏差缓解。训练和评估数据被认为是人工智能系统偏差的常见来源。许多类型的偏见可能存在并困扰数据收集的公平性，需要不同的流程和技术来对抗它（有关综合调查，请参阅参考文献[242]）。数据收集过程中的偏差缓解技术可分为两大类：去偏差采样和去偏差注释。前者涉及识别要使用或注释的数据点，而后者则侧重于选择适当的注释器。

当采样数据点进行注释时，我们注意到反映用户群体的数据集并不能保证公平性，因为统计方法和指标可能有利于大多数群体。如果大多数群体对于任务更加同质（例如，由于数据稀缺，识别较少口音的语音自然会更困难[191]），那么这种偏见可能会进一步放大。因此，系统开发人员在开发和评估公平的人工智能系统时应考虑任务难度。然而，选择合适的注释器对于代表性不足的数据尤其重要（例如，在注释语音识别数据时，大多数人也不擅长识别很少听到的口音）。因此，必须谨慎选择正确的专家，尤其是在对代表性不足的群体的数据进行注释时，以防止人为偏见渗透到注释数据中。

解释集合。除了模型设计和开发之外，数据收集也是构建可解释的人工智能系统不可或缺的一部分。正如3.2.3节中将提到的，在AI模型中添加解释任务可以帮助解释模型的中间特征。该策略通过生成支持句子来用于基于 NLP 的阅读理解等任务 [332, 366]。为了训练解释任务，考虑收集可能不直接属于最终任务的解释或信息是有帮助的，无论是直接来自注释器[354]还是在自动化方法[185]的帮助下。

数据来源。数据来源需要记录数据沿袭，包括来源、依赖关系、上下文和处理步骤[306]。通过以最高分辨率跟踪数据沿袭，数据来源可以增强人工智能系统的透明度、可重复性和问责制 [154, 172]。此外，最近的研究表明，数据来源可用于减轻数据中毒[33]，从而增强人工智能系统的稳健性和安全性。参考文献[154]中提供了数据溯源的技术实现。工具链[293]和文档[129]指南也针对涉及人工智能系统的特定场景进行了研究。为了确保来源防篡改，区块链最近被认为是证明人工智能数据来源的有前途的工具[15, 96]。

3.1.2 数据预处理

在将数据输入人工智能模型之前，数据预处理有助于消除可能损害模型行为的数据不一致污染以及可能损害用户隐私的敏感信息。

异常检测。异常检测（又名异常值检测）长期以来一直是机器学习的一个活跃领域[70,81,257,316]。由于机器学习模型对异常数据的敏感性，通过异常检测进行数据清理是提高性能的有效方法。最近的研究表明，异常检测对于满足人工智能可信度的一些要求非常有用。例如，欺诈数据可能会挑战银行和保险等领域系统的稳健性和安全性。已经提出了通过使用异常检测来解决这个问题的各种方法[70]。对抗性输入的检测和缓解也被认为是防御逃避攻击和数据中毒攻击的一种手段[12,213,304]。值得注意的是，高维度（例如图像）检测的有效性仍然有限[64]。对抗性攻击的缓解也称为数据清理 [71,87,258]。

数据匿名化（DA）。 DA 修改数据，使受保护的私人信息无法恢复。人们已经开发了定量数据匿名化的不同原理，例如k-匿名性[288]、(c, k)-安全性[236]和δ-存在性[253]。数据格式特定的 DA 方法已经研究了数十年 [171,372,386]。例如，社交网络图数据形式的私人信息可能包含在图的顶点属性、其链接关系、权重或其他图度量中[390]。文献 [37, 220] 中已经考虑了对此类数据进行匿名化的方法。还针对关系数据 [262]、集值数据 [151, 320] 和图像数据 [97, 239] 设计了特定的 DA 方法。数据匿名化已经制定了指南和标准，例如美国的HIPAA和英国的ISB1523。数据假名化[251]也是GDPR推广的一项相关技术。它将私人信息替换为非识别性参考。

理想的数据匿名化预计能够免受数据去匿名化或重新识别攻击的影响，这些攻击试图从匿名数据中恢复私人信息[111, 175]。例如，参考文献[176]引入了几种从图数据中去匿名化用户信息的方法。为了降低隐私泄露的风险，参考文献[174]提供了一个开源平台来评估图数据匿名化算法针对去匿名化攻击的隐私保护相关性能。

差分隐私（DP）。 DP 共享数据集中的组信息，同时保留单个样本 [108-110]。典型的DP可以通过ε-差分隐私来正式定义。它测量数据集上的（随机）统计函数反映元素是否已被删除的程度[108]。 DP已经在各种数据发布任务中进行了探索，例如日志数据[159, 385]、集值数据[76]、相关网络数据[75]和众包数据[278, 344]。它还被应用于单机和多机计算环境，并与机器学习模型集成以保护模型隐私[2,120,349]。像苹果这样的企业已经使用DP将用户数据转换成无法复制真实数据的形式[21]。在参考文献[113]中，研究人员提出了满足DP定义的RAPPOR算法。该算法用于用户软件的众包统计分析。 DP 还用于提高 AI 模型针对对抗性样本的鲁棒性 [204]。

3.2 算法设计

可信人工智能的许多方面已作为人工智能研究背景下的算法问题得到解决，并引起了广泛的兴趣。我们按照人工智能可信度的鲁棒性、可解释性、公平性、泛化性和隐私保护等相应方面整理了最新的技术方法，为从业者提供快速参考。

3.2.1 对抗鲁棒性

人工智能模型的稳健性很大程度上受到训练数据和所使用算法的影响。我们在本节中描述几个有代表性的方向。综合调查可以在参考文献[12,19,45,69,213,304,373]等文献中找到。

对抗性训练。自从发现对抗性攻击以来，人们已经认识到，用对抗性样本增强训练数据可以提供一种直观的防御方法。这通常被称为对抗性训练[134,211,346]。可以通过在训练期间输入原始数据和对抗性样本来以暴力方式进行增强[201]，或者使用正则化项来隐式表示对抗性样本[134]。传统的对抗性训练会增加特定攻击的数据。它可以防御相应的攻击，但容易受到其他类型的攻击。人们已经研究了各种改进措施来提高这种防御能力[45,229,304]。参考文献[328]使用从其他模型转移的对抗性扰动增强了训练数据。它被证明可以进一步防御不需要了解模型参数的黑盒攻击这可以帮助防御不需要了解模型参数的黑盒攻击。参考文献[231]将多种类型的扰动结合到对抗训练中，以提高模型针对多种类型攻击的鲁棒性。

对抗性正则化。除了隐式表示对抗性样本的正则化项之外，最近的研究还进一步探索网络结构或正则化，以克服 DNN 面对对抗性攻击的脆弱性。这种正则化的一个直观动机是防止网络的结果在输入扰动较小的情况下发生巨大变化。例如，参考文献[139]对每层的大偏导数进行惩罚，以提高其输出的稳定性。参考文献[286]采用了类似的梯度正则化。 Parseval 网络 [82] 通过对每一层的 Lipschitz 常数进行正则化来训练网络。

经过认证的稳健性。对抗性训练和正则化提高了人工智能模型在实践中的鲁棒性，但不能从理论上保证模型可靠地工作。这个问题促使研究正式验证模型的稳健性（又名经过认证的稳健性）。最近关于经过认证的鲁棒性的研究主要集中在处理输入扰动的鲁棒训练上。例如，CNN-Cert [51]、CROWN [379]、Fast-lin 和 Fast-lip [352] 旨在最小化给定输入扰动下最坏情况损失的上限。相反，参考文献[152]得出了改变分类器决策所需的输入操作的下限，并将其用作鲁棒训练的正则化项。为了解决大型网络难以精确计算此类边界的问题，人们提出了各种松弛或近似（例如参考文献 [352, 378]）作为正则化的替代方案。请注意，上述研究主要仅在给定训练数据附近局部优化鲁棒性。为了在未见过的输入上实现经过认证的鲁棒性，全局鲁棒性最近引起了人工智能界的兴趣[77, 206]。
还值得注意的是，最近的趋势是经过认证的稳健性和形式验证的视角相结合，旨在开发严格的数学规范和验证技术以保证软件的正确性[83]。参考文献[335]最近的一项调查对神经网络的形式验证进行了彻底的回顾。

中毒防御。典型的中毒或后门攻击会污染训练数据以误导模型行为。除了在数据清理阶段避免可疑数据外，针对中毒数据的防御算法也是一个活跃的领域[213]。在 DNN 模型的不同阶段对防御进行了研究。例如，基于对良性样本的后门相关神经元通常处于失活的观察，参考文献[219]提出从网络中修剪这些神经元以去除隐藏的后门。 Neural Cleanse [342] 主动发现模型中的后门模式。然后可以通过从数据中早期检测后门模式或重新训练模型以减轻后门来避免后门。后门攻击的检测也可以通过分析专门设计的基准输入的模型预测来进行[194]。

3.2.2 模型泛化

模型泛化技术不仅旨在提高模型性能，还探索以有限的数据和有限的成本训练人工智能模型。我们回顾了模型泛化的代表性方法，分为经典泛化和领域泛化。

经典的泛化机制。作为模型泛化理论的基本原理，偏差-方差权衡表明泛化模型应在欠拟合和过拟合之间保持平衡[39, 124]。对于过度拟合的模型，降低复杂性/容量可能会带来更好的泛化效果。以神经网络为例。添加瓶颈层（其神经元数量少于上下层）可以帮助降低模型复杂性并减少过度拟合。除了调整模型的架构之外，还可以通过各种显式或隐式正则化来减轻过度拟合以获得更好的泛化能力，例如早期停止[370]、批量归一化[167]、dropout[309]、数据增强和权重衰减[ 196]。当训练数据的大小远小于模型参数的数量时，这些正则化是提高模型泛化能力的标准技术[337]。他们的目标是将学习推向具有可管理复杂性的假设子空间并降低模型复杂性[377]。然而，[377]也观察到显式正则化可以提高泛化性能，但不足以减少泛化误差。因此，深度神经网络的泛化仍然是一个悬而未决的问题。

域泛化。现代 DNN 面临的挑战是对分布外数据的泛化。这一挑战来自于迁移学习 [255, 350] 领域的各种实际人工智能任务 [343, 391]。域适应 [343, 391] 旨在找到域不变的特征，以便算法可以跨域实现相似的性能。另一个例子，少样本学习的目标是仅使用几个例子将模型推广到新任务[78,348,371]。元学习[336]试图从许多类似的任务中学习泛化的先验知识。特征相似性 [190, 308] 已被用作模型不可知元学习 (MAML) [119]、强化学习 [212] 和记忆增强神经网络 [38, 291]。

模型预训练是一种利用从其他领域学到的知识的流行机制，最近在学术界和工业界都取得了越来越大的成功。例如，在计算机视觉中，已建立的成功范式涉及在大规模数据集（例如 ImageNet）上预训练模型，然后使用较少的训练数据对目标任务进行微调[131,224,375]。这是因为预训练的特征表示可用于将信息传输到目标任务[375]。无监督预训练最近在语言处理（例如 BERT [92] 和 GPT [269]）和计算机视觉任务（例如动量对比 (MoCo) [150] 和序列对比学习 (SeCo) [368] 方面非常成功）。此外，自监督学习提供了一种学习跨模态特征表示的良好机制。其中包括视觉和语言模型 VL-BERT [313] 和 Auto-CapTIONs [256]。为了解释无监督预训练的有效性，[112]进行了一系列实验来说明它可以将学习驱动到产生更好泛化的最小值盆地。

3.2.3 可解释的机器学习

在本节中，我们回顾 2.3.1 节中提到的 ML 可解释性两个方面的代表性方法及其在不同任务中的应用。

可解释的 ML 模型设计。尽管可解释模型在性能方面被认为是不利的，但近年来人们一直在积极研究可解释模型，并且已经研究了各种完全或部分可解释的机器学习模型以突破其性能极限。

不言自明的机器学习模型。多年来，机器学习领域已经研究了许多不言自明的模型。代表性的包括 KNN、线性/逻辑回归、决策树/规则和概率图模型[24、47、141、250]。请注意，这些模型的自解释性有时会因其复杂性而受到损害。例如，非常复杂的树或规则结构有时可能被认为是不可理解或无法解释的。传统模型以外的一些学习范式也被认为是可解释的，例如因果推理[197, 259]和知识图谱[345]。这些方法也有望为解决机器学习的可解释性问题提供宝贵的启发。

超越不言自明的机器学习模型。与 DNN 等黑盒模型相比，传统的自解释模型在图像分类和文本理解等复杂任务上表现较差。为了实现可解释性和性能之间的折衷，人们提出了可自解释模型和黑盒模型的混合组合。典型的设计涉及将可解释的瓶颈模型嵌入到 DNN 中。例如，之前的研究已将线性模型和原型选择嵌入到 DNN 中 [16,20,73]。在著名的类激活映射[389]中，DNN 末尾的平均池化层也可以被视为可解释的线性瓶颈。注意力机制 [30, 363] 最近也引起了人们的兴趣，并在一些研究中被视为 DNN 中的可解释瓶颈 [79, 237]。然而，这种说法仍然存在争议，因为代表不同解释的注意力权重可以产生类似的最终预测 [170, 355]。

事后模型解释。除了设计可自我解释的模型之外，了解黑盒模型如何做出具体决策也是一个重要问题。关于这个问题的研究的主要部分已经解决了事后模型解释的方法并提出了各种方法。

解释器近似旨在用可解释的模型来模拟给定模型的行为。这也称为模型的全局解释。人们提出了各种方法来近似 ML 模型，例如随机森林 [317, 392] 和神经网络 [28, 86, 393]。随着过去十年深度学习的兴起，DNN 上的解释器逼近已经发展为树等解释器上的知识蒸馏问题 [125, 384]。

特征重要性一直是可解释性研究的一个持续活跃的领域。一个代表性方面使用局部线性近似来建模每个特征对预测的贡献。局部可解释模型不可知解释（LIME）[279]和 SHapley Additive exPlanation（SHAP）[225] 是有影响力的方法，可用于表格数据、计算机视觉和 NLP 的预测。梯度可以反映特征如何对预测结果做出贡献，并且引起了人们对 DNN 可解释性研究的极大兴趣 [297, 305]。在 NLP 或计算机视觉 (CV) 中，梯度或其变体用于以显着性图和句子突出显示的形式将模型的决策回溯到最密切相关的输入的位置 [250, 302, 314, 375]。

特征内省旨在提供中间特征的语义解释。代表性方面将额外的分支附加到模型以生成人类可以解释的解释性结果。例如，在基于 NLP 的阅读理解中，除了答案生成之外，支持句子的生成还充当解释任务 [332, 366]。在图像识别中，部分模板掩模可用于规范特征图以关注局部语义部分[383]。概念归因[47]是将给定特征空间映射到人类定义概念的另一个方面。类似的想法已被用于生成网络中，以控制面部生成器中的属性，例如性别、年龄和种族[221]。

基于示例的解释通过使用示例数据解释了 AI 模型的结果。例如，从参考文献[193]中的稳健统计中借用了一个有影响力的函数，以找到给定结果最有影响力的数据实例。反事实解释[13,185,341]通过寻找边界情况来翻转结果以相反的方式起作用。这有助于用户更好地理解模型的决策面。

3.2.4 算法公平性

在算法开发过程中减少人工智能模型偏差的方法可以在数据输入模型之前（预处理）、模型训练时（处理中）或训练后模型预测时（后处理）进行干预。加工）。

预处理方法。除了对数据收集过程进行去偏差之外，我们还可以在模型训练之前对数据进行去偏差。常见的方法包括以下几种：
调整样本重要性。这非常有用，尤其是在数据收集去偏不充分或不再可能的情况下。常见的方法包括重采样[6]，其中涉及选择数据的子集，重新加权[60]，其中涉及为数据示例分配不同的重要性值，以及对抗性学习[229]，这可以通过重新采样或重新加权来实现训练有素的模型来查找违规案例。除了帮助平衡分类准确性之外，这些方法还可以用于平衡分类错误的成本，以提高某些群体的性能[163]（例如，对于高传染性和严重疾病的筛查，假阴性的成本可能比假阳性的成本更高）积极因素；参见成本敏感学习[321]）。
调整特征重要性。特征和敏感变量之间的无意关联可能会导致不公平。常见的去偏方法包括表示变换[61]和盲法[74]，表示变换可以帮助调整特征的相对重要性，盲法可以忽略与敏感变量直接相关的特征。
数据增强。除了直接使用现有的数据样本之外，还可以引入额外的样本，这些样本通常涉及对可用样本进行更改，包括通过扰动和重新标记 [60, 85]。

加工中方法。预处理技术不能保证在模型训练期间达到预期效果，因为不同的模型可以以不同的方式利用特征和示例。这是处理中技术可以发挥作用的地方：
调整样本重要性。与预处理方法类似，重新加权[195]和对抗性学习[68]可用于处理中，有可能利用尚未完全优化的模型参数或预测来更直接地消除模型的偏差。
优化相关技术。或者，可以通过优化技术更直接地强制模型公平性。例如，定量公平性指标可以用作正则化[7]或模型参数优化的约束[67]。

后处理方法。即使在数据管理和模型训练方面采取了所有预防措施，所得模型仍可能表现出不可预见的偏差。后处理技术可用于去偏，通常借助辅助模型或超参数来调整模型输出。例如，优化技术（例如约束优化）可用于训练较小的模型来转换模型输出或校准模型置信度[186]。重新加权多个模型的预测也有助于减少偏差[168]。

3.2.5 隐私计算

除了第 3.1.2 节中介绍的保护隐私的数据处理方法之外，还有其他方法在模型学习期间保护数据隐私。在这一部分中，我们简要回顾此类算法的两个流行类别：安全多方计算和联邦学习。

安全多方计算（SMPC）处理多个数据所有者计算函数的任务，保护数据的隐私，并且没有受信任的第三方作为协调者。典型的 SMPC 协议满足隐私性、正确性、输入独立性、有保证的输出交付和公平性 [114, 387]。乱码电路是安全两方计算的代表性范例[244, 367]。不经意转移是关键技术之一。它保证发送者不知道接收者从传输的消息中获得什么信息。对于多方条件，秘密共享是通用框架之一[181]。每个数据实例都被视为一个秘密，并分为多个部分。然后将这些股份分配给多个参与方。函数值的计算被分解为按照给定协议计算的基本操作。

SMPC 在 ML 任务中的使用已经在特定于模型的学习任务（例如线性回归 [128] 和逻辑回归 [300]）以及通用模型学习任务 [247] 的背景下进行了研究。安全推理是一个新兴主题，它为 ML 使用定制 SMPC。它在机器学习中的应用是作为一种服务，其中服务器保存模型，客户端保存私有数据。为了降低SMPC计算和通信的高成本，参考文献[8, 32]将参数量化和函数逼近与密码协议一起使用。一些工具已经开源，例如 MP2ML [48]、CryptoSPN [330]、CrypTFlow [200, 276] 和 CrypTen [188]。

联合学习 (FL) 最初被提出作为一种安全方案，用于根据用户与其设备交互的数据协作训练 ML 模型 [241]。作为一种利用多方数据来完成协作模型训练任务的解决方案，它很快引起了学术界和业界的广泛兴趣。它旨在解决阻碍机器学习算法正确使用多个数据源的数据隐私问题。它已应用于许多领域，例如医疗保健 [282, 299] 和金融 [223]。

现有的 FL 算法可以分为水平 FL、垂直 FL 和联邦迁移学习算法 [365]。水平FL是指各方样本不同但样本共享相同特征空间的场景。训练步骤被分解为首先计算每个客户端上的优化更新，然后将它们聚合到中央服务器上，而无需知道客户端的私有数据[241]。垂直FL是指各方共享相同样本ID空间但具有不同特征的设置。参考文献[148]使用同态加密进行基于垂直逻辑回归的模型学习。参考文献[138]提出了一种有效的核学习方法。联邦迁移学习适用于样本或特征空间中没有任何一方重叠的情况[222]。参考文献[180]讨论了 FL 与其他研究主题（例如多任务学习、元学习和公平学习）之间的联系。为了加快 FL 相关的研究和开发，已经发布了许多开源库，例如 FATE、FedML [149] 和 FedlearnAlgo [217]。

3.3 Development

制造可靠的产品需要在软件工程方面付出大量努力，而这一点有时会被人工智能开发人员忽视。这种缺乏勤奋的行为，例如测试和监控不足，可能会在人工智能产品的后续生命周期中产生长期成本（又称技术债务[296]）。开发和部署阶段的软件工程作为可靠人工智能系统的必要条件最近引起了广泛关注[17, 203]。此外，这一阶段研究的各种技术可以有助于提高人工智能系统的可信度[17]。在本节中，我们将调查代表性技术。

3.3.1 功能测试

该测试方法继承了规范软件工程的工作流程，在人工智能系统的开发中受到越来越多的关注。就人工智能可信度而言，测试是证明系统满足特定要求的有效方法。最近的研究探索了如何使功能测试适应人工智能系统。这已在文献中进行了回顾，例如参考文献 [164,235,381]。我们从文献中描述了适应的两个方面，这对于增强人工智能系统的可信度很有用。

测试标准。与典型的软件工程不同，在典型的软件工程中，测试系统的实际输出和预期输出之间的精确公平性，而人工智能系统通常通过其在特定测试数据集上的预测准确性来测试。除了准确性之外，还研究了各种测试标准，以进一步反映和测试人工智能系统更复杂的属性。软件测试中测试覆盖率的概念已被移植到 DNN 模型中 [226, 260]。代表性指标的名称——神经元覆盖率 [260]——形象地说明了它测量 DNN 中激活神经元的覆盖率，类似于规范软件测试中的代码分支。这种覆盖标准可以有效地证明 DNN 对抗对抗性攻击的鲁棒性 [226]。

测试用例生成。人工注释的数据集不足以彻底测试人工智能系统，大规模自动生成的测试用例被广泛使用。与规范软件测试类似，自动生成预期地面事实的问题，即所谓的预言机问题[34]，也发生在人工智能软件测试场景中。手工制作的测试用例模板是 NLP 应用中一种直观但有效的方法[281]。变质测试也是一种将输入/输出对转换为新测试用例的实用方法。例如，[382]使用生成对抗网络（GAN）作为新的测试用例，将白天拍摄的道路场景图像转换为雨天图像，并重新使用原始的不变注释来测试自动驾驶系统。这些测试用例对于评估人工智能模型的泛化性能非常有用。通过在正常图像中添加对抗性模式来测试对抗性的鲁棒性，采用了类似的方法[226]。模拟环境还广泛用于测试计算机视觉和强化学习等应用程序。我们在第 3.3.3 节中进一步回顾这个主题。

3.3.2 性能基准测试

与传统软件不同，人工智能系统的功能通常不容易仅通过功能测试来捕获。为了确保系统在不同方面都是值得信赖的，通常会应用基准测试（又称软件工程中的性能测试）来确保系统性能和稳定性（当这些特征可以自动测量时）。

鲁棒性是可信度的一个重要方面，相对容易进行自动评估。参考文献 [88, 153] 引入了一套黑盒和白盒攻击来自动评估人工智能系统的鲁棒性。在部署此类系统以影响数百万用户之前，它可能会作为健全性检查来执行。自传统软件测试以来，软件公平性也一直是一个问题[56, 127]。人们已经研究了人工智能系统的标准，通过调查敏感属性、系统结果和适用于精心设计的诊断数据集时的真实标签之间的相关性来发现不公平问题[327]。文献中已经提出了精心策划的数据集和指标来评估不同任务感兴趣的公平指标的性能[40,123,307]。

最近，人们对 NLP 应用中模型输出解释时的可解释性基准测试越来越感兴趣。例如，参考文献[238]要求人群工作者注释显着的文本片段，这些文本片段会导致他们认为该文本是可恨的或令人反感的，并检查模型预测的重要性与人类注释的吻合程度。相反，参考文献[93]为人类注释者引入了对文本的部分扰动，并观察系统的解释是否与改变人类决策的扰动相匹配。与此同时，参考文献[267]报告说，可解释性基准测试仍然相对困难，因为视觉刺激具有更高的维度和连续性。

3.3.3 模拟开发

虽然基准测试可以根据给定静态数据的预测行为来评估人工智能系统，但许多系统的行为深深植根于它们与世界的交互中。例如，在静态场景下对自动驾驶车辆系统进行基准测试不足以帮助我们评估其在动态道路上的性能。对于这些系统，仿真通常在部署前确保其可信度方面发挥着重要作用。

机器人技术是人工智能的一个子领域，最常使用模拟。机器人的控制系统可以在 Gazebo [192]、MuJoCo [324] 和 VerifAI [103] 等模拟环境中进行比较和基准测试。同样，自动驾驶车辆的模拟器也得到了广泛的应用，包括CARLA[102]、TORCS[359]、CarSim[42]和PRESCAN[323]。这些软件平台模拟机器人和车辆的运行环境以及模拟机器人或汽车上的控制装置。在自然语言处理，特别是对话式人工智能中，模拟器被广泛用于模拟用户行为，以测试系统能力并通过对话来满足用户需求[205]。这些模拟器可以帮助自动确保人工智能系统在交互式环境中的性能，并在部署之前诊断问题。

尽管软件模拟器提供了效率、灵活性和可复制性，但它们通常仍然无法完美模拟人工智能系统在部署时所面临的约束以及环境属性或其中的变化。对于部署在嵌入式或其他盒装硬件上的人工智能系统，了解系统在现实场景中使用的硬件上运行时的行为非常重要。硬件在环仿真可以帮助开发人员了解系统在仿真环境中的芯片、传感器和执行器上运行时的性能，对于自动驾驶系统等延迟和功耗关键型系统特别有帮助 [50, 54 ]。通过进一步进行现实世界模拟，人们还可以构建受控的现实世界环境，以便完全集成的人工智能系统在其中漫游（例如，带有路标和虚拟障碍物的自动驾驶汽车的测试轨道）。在向用户发布此类系统之前，这可以提供更实际的测量和性能保证。

3.4 部署

开发完成后，人工智能系统被部署在现实产品上，并与环境和用户进行交互。为了保证系统值得信赖，在部署阶段应考虑多种方法，例如添加额外的组件来监控异常情况，以及开发特定的人机交互机制以实现透明度和可解释性。

3.4.1 异常监控

异常监控已成为软件工程中一种行之有效的方法。在AI系统方面，监控范围进一步扩展，涵盖数据异常值、数据漂移、模型性能等。监控作为人工智能系统成功运行的关键保障，从多方面增强系统的可信度。下面讨论一些有代表性的例子。

攻击监控已广泛应用于传统SaaS，例如电子商务系统中的欺诈检测[3]。就最近新兴的对抗性攻击而言，此类攻击输入的检测和监控[243]也被认为是确保系统鲁棒性的重要手段。数据漂移监控[268]提供了在市场变化[289]等动态环境引起的概念变化[394]下维持人工智能系统泛化的重要手段。最近，一些云人工智能服务也采用了滥用监控[173]，以避免不当使用，例如未经授权的人口监控或通过人脸识别进行个人跟踪，这有助于确保道德价值观的正确结合。

3.4.2 人机交互

人机交互作为人机交互（HCI）的延伸，引起了人工智能行业的广泛关注[4, 18]。有效的人机交互会在多个方面影响人工智能系统的可信度。我们简要说明两个主题。

用户界面是影响用户体验最直观的因素。它是人工智能系统向用户公开其内部信息和决策过程的主要媒介，对系统的透明度和可解释性具有重要影响[301, 351]。人们已经研究了各种交互方法来增强人工智能的可解释性，包括机器学习模型的可视化[72]和交互式参数调整[351]。除了透明度和可解释性之外，界面的可访问性也显着影响用户的可信度体验。基于人工智能的交互技术已经实现了各种新形式的人机界面，例如聊天机器人、音频语音识别和手势识别，并可能导致残疾人的无障碍问题。减轻这种不公平现象在最近的研究中引起了人们的关注[179, 326]。

人为干预，例如通过监控故障或参与决策[295]，已应用于各种人工智能系统，以补偿有限的性能。高级驾驶辅助系统（ADAS）可以被认为是涉及人类干预的系统的典型示例，其中人工智能完成低级驾驶工作，人类做出高级决策。除了补偿决策之外，人为干预还提供信息监督，以在许多场景中训练或微调人工智能系统，例如自动驾驶车辆的影子模式[319]。为了最大限度地减少并充分利用人类在这种交互中的努力，人机合作模式的有效设计是人机交互和人工智能跨学科工作中的一个新兴主题，被称为人机循环或交互式机器学习。 157]文献中。

3.4.3 故障保护机制

考虑到当前人工智能系统的不完善性，当系统在特殊情况下发生故障时，避免造成伤害非常重要。通过向传统的实时自动化系统学习，人工智能社区已经意识到，如果人工智能系统的故障可能造成伤害或损失，那么故障安全机制或后备计划应该是人工智能系统设计的重要组成部分。这种机制也正在成为最近的人工智能指南中的一个重要要求，例如参考文献[9]。过去几年，自动防故障设计已在机器人技术的多个领域得到应用。在无人机（UAV）领域，故障安全算法已经被研究了很长时间，以避免四轴飞行器频繁碰撞[126]并确保系统故障时安全着陆[252]。在安全至关重要的自动驾驶中，静止不动等故障安全机制已成为高级驾驶员辅助系统（ADAS）产品中不可或缺的组成部分[160]，并且正在更高的自动化水平上进行研究[230]。

3.4.4 硬件安全

人工智能系统广泛部署在各种硬件平台上，以应对不同的场景，从计算中心的服务器到手机和嵌入式系统。对操作系统和硬件的攻击会带来新的风险，例如数据篡改或窃取，并威胁人工智能系统的稳健性、安全性和隐私性。人们已经研究了各种方法来应对这一新威胁[364]。从硬件安全的角度来看，可信执行环境（TEE）的概念是最近被许多硬件制造商采用的代表性技术[287]。 TEE的一般机制是为数据和代码提供一个安全区域。该区域不受标准操作系统的干扰，因此受保护的程序不会受到攻击。 ARM 处理器支持使用 TrustZone 设计的 TEE 实现 [264]。它们在单个内核上同时运行安全操作系统和普通操作系统。安全部分为敏感信息提供安全的环境。英特尔软件防护扩展通过基于硬件的内存加密来实现 TEE [240]。其飞地机制允许分配受保护的内存来保存私有信息。此类安全机制已用于保护生物识别 ID 和金融账户密码等敏感信息，并适用于其他人工智能用例。

3.5 管理

研究人员和开发人员等人工智能从业者在上述数据、算法、开发和部署阶段研究了各种提高人工智能可信度的技术。除了这些具体方法之外，适当的管理和治理还提供了整体保证，确保人工智能系统的整个生命周期中的可信度始终保持一致。在本节中，我们将介绍几种可执行的方法，以促进人工智能社区改善人工智能可信度的管理和治理。

3.5.1 文档

传统的软件工程在利用文档辅助开发方面积累了丰富的经验。代表性的文档类型包括需求文档、产品设计文档、架构文档、代码文档和测试文档[11]。除了传统的软件工程之外，还提出了多种新型文档来适应机器学习训练和测试机制。它们的范围可能包括模型[246]、数据集[41、129、156]和服务[22]的目的和特征。正如第 2.3.2 和 2.7 节中提到的，文档是通过跟踪、指导和审计其整个生命周期来增强系统透明度和问责制的有效且重要的方法[272]，并作为构建值得信赖的人工智能系统的基石。

3.5.2 审核

根据金融和航空航天等安全关键行业的经验教训，审计最近被认为是检查人工智能系统是否符合特定原则的有效机制[58, 356]。从审计人员的地位来看，审计过程可以分为内部审计和外部审计。内部审核使制造商能够进行自我评估和迭代改进，以遵循可信原则。它可以覆盖系统的生命周期而不泄露商业秘密[272]。然而，独立机构的外部审计在赢得公众信任方面更有效[58]。

审计可能涉及人工智能系统生命周期的整个或选择性部分。内部审计的综合框架可以在参考文献[272]中找到。审计手段可能包括访谈、记录工件、清单、代码审查、测试和影响评估。例如，产品需求文档、模型卡[246]和数据表[129]等文档可以作为理解开发过程中原则一致性的重要参考。检查表被广泛用作评估公平性[228]、透明度[292]和可重复性[263]的直接定性方法。定量测试也是一种强大的方法，并已成功用于审计公平性，例如性别阴影研究[58]。受欧盟数据保护影响评估（DPIA）的启发，算法影响评估的概念被提出来评估可信度主张并发现负面影响[277]。除了上述代表之外，算法审计方法的设计可以在参考文献 [290, 356] 中找到。

3.5.3 合作与信息共享

如图2所示，可信人工智能的建立需要利益相关者之间的合作。从工业界的角度来看，与学术界的合作可以使新技术得到快速应用，从而提升产品的性能并降低其带来的风险。与监管机构的合作证明产品适当遵循可信原则。此外，工业企业之间的合作有助于解决基于共识的问题，例如数据交换、标准化和生态系统建设[27]。人工智能利益相关方近期的实践显示了多维度合作的有效性。我们总结了以下几个方面的做法。

合作研究和开发。协作一直是人工智能技术发展的成功推动力。为了促进人工智能可信度的研究，利益相关者正在建立各种形式的合作，例如可信人工智能研究研讨会和 DARPA XAI 等合作项目[144]。

值得信赖的数据交换。数据不断增长的商业价值提出了在各种场景下跨公司交换数据的需求（例如，2.6 节中的医疗人工智能系统）。除了基于隐私的计算技术之外，数据所有者、技术提供商和监管机构之间的合作在建立数据交换生态系统、解决数据定价和数据授权等问题方面正在取得进展。

监管合作发展。积极参与标准和法规的制定是学术界、产业界和监管机构对接需求和情况的重要手段。

事件分享。人工智能社区最近认识到事件共享是突出和预防人工智能系统潜在风险的有效方法[57]。人工智能事件数据库[91]为利益相关者提供了一个鼓舞人心的例子，分享负面的人工智能事件，以便行业可以避免类似的问题。

3.6 TrustAIOps：实现可信性的持续工作流程

人工智能技术的快速发展及其新兴应用引发了人工智能可信问题。人工智能的可信度并不是通过某些特定解决方案来达到的经过充分研究的静态标准。可信度的建立是一个动态的过程。在过去的十年里，我们见证了可信度不同维度的演变[178]。例如，对对抗性攻击的研究增加了对对抗性鲁棒性的担忧。安全关键场景的应用对人工智能系统的问责性要求更加严格。人工智能研究的发展、人工智能产品形态的演进、社会观念的变化，都意味着可信性的要求和解决方案不断重新制定。因此，我们认为，除了人工智能产品的要求之外，人工智能行业还应该将可信度视为其日常运营的一种精神，并准备好不断增强其产品的可信度。

人工智能可信度的不断增强，对人工智能行业提出了新的工作流程要求。最近关于工业人工智能工作流程的研究将 DevOps [36] 的机制扩展到 MLOps [233]，以实现 ML 产品的改进。 DevOps 的概念已被应用于现代软件开发中，以不断部署软件功能并提高其质量。 MLOps [233] 及其变体，例如 ModelOps [165] 和 SafetyOps [303]，将 DevOps 扩展到其工作流程中的数据准备、训练、验证和部署的 ML 生命周期。 MLOps 的工作流程提供了构建可信人工智能工作流程的起点。通过集成 ML 生命周期，MLOps 将研究、实验和产品开发联系起来，从而能够快速利用可信 AI 的理论开发。最近发布了丰富的 MLOps 工具链，用于跟踪数据、模型和元数据等人工智能工件，以提高产品的可解释性和可重复性[165]。最近的研究试图扩展 MLOps，以进一步将可信度集成到人工智能工作流程中。例如，[303]通过安全工程将 MLOps 扩展为自动驾驶的 SafetyOps。

正如我们在本节中所阐述的，建立可信度需要对人工智能生命周期进行持续、系统的升级。通过扩展 MLOps，我们将这种实践升级总结为一个新的工作流程 TrustAIOps，其重点是在整个 AI 生命周期中施加可信度要求。这个新的工作流程包含以下属性：

跨学科角色之间的密切合作。构建值得信赖的人工智能需要组织不同的角色，例如机器学习研究人员、软件工程师、安全工程师和法律专家。密切合作缩小了专业知识形式之间的知识差距（例如，参考文献[208]，参见第 3.5.3 节和 A.2 节）。
一致的可信原则。不可信风险存在于人工智能系统生命周期的各个阶段。减轻此类风险需要人工智能行业的所有利益相关者了解并遵守统一的可信原则（例如，参考文献[301]，参见 A.2 节）。
广泛的工件管理。工业人工智能系统建立在数据、代码、模型、配置、产品设计和操作手册等各种工件的基础上。对这些工件的精心管理有助于评估风险并提高可重复性和可审计性（参见第 3.5.1 节）。
连续的反馈循环。经典的持续集成和持续开发（CI/CD）工作流程提供了通过反馈循环改进软件的有效机制。在一个值得信赖的人工智能系统中，这些反馈循环应该连接并迭代改进其生命周期的五个阶段，即数据、算法、开发、部署和管理（例如，参考文献[272, 310]）。

人工智能工业工作流程的演变是建立其可信度的动态过程的自然反映。通过系统地组织人工智能生命周期的各个阶段和跨学科的从业者，人工智能行业能够从技术、法律、社会等多个角度理解可信性的要求，并不断改进。

4 结论、挑战和机遇

在这项调查中，我们概述了我们认为对人工智能系统至关重要的可信度的关键方面。我们介绍了如何对人工智能系统进行评估和评估，并回顾了业界目前在这个方向上的努力。我们进一步提出了一种系统方法来考虑现实世界人工智能系统整个生命周期中可信度的这些方面，为这些系统的开发和使用的每一步提供建议。我们认识到，完全采用这种系统方法来构建值得信赖的人工智能系统需要从业者接受我们已经确定的关键方面背后的概念。更重要的是，它需要将重点从绩效驱动的人工智能转向信任驱动的人工智能。从短期来看，这种转变将不可避免地带来副作用，例如学习时间更长、开发速度减慢和/或构建人工智能系统的成本增加。然而，我们鼓励从业者关注获得所有利益相关者对这些系统的持续使用和开发的信任的长期利益。在本节中，我们最后讨论了可信人工智能未来发展中的一些开放挑战和潜在机遇。

4.1 人工智能可信度作为长期研究

我们对人工智能可信度的理解还远远不够完整或普遍，并且随着我们开发新的人工智能技术并更清楚地了解其社会影响，我们将不可避免地发展。这一过程需要在人工智能的多个关键领域进行长期研究。在本节中，我们将讨论几个我们认为对于人工智能可信度未来发展至关重要的悬而未决的问题。

4.1.1 可信度方法的不成熟

正如第 2 节所述，人工智能可信度的几个方面，例如可解释性和鲁棒性，解决了当前人工智能技术的局限性。尽管人们对人工智能研究产生了广泛的兴趣，但令人满意的解决方案仍然遥不可及。以可解释性为例。尽管人工智能研究是一个活跃的领域，但人们对其仍然知之甚少。当前的解释模型和事后模型解释技术都有一些共同的问题，例如，（1）解释对扰动很脆弱[130]，（2）解释并不总是与人类解释一致[47]，以及（3 ）很难判断解释是否正确或忠实[250]。这些问题为可解释性研究提出了重要问题，并为人工智能理论研究提供了有价值的研究方向。另一个例子是鲁棒性。对抗性攻击和防御之间的军备竞赛反映出我们对人工智能稳健性的理解还不成熟。与其他安全领域一样，攻击随着防御的发展而发展。传统的对抗性训练[134]已被证明很容易被随后开发的攻击所愚弄[328]。后来证明相应的防御[328]很容易受到新攻击[99]的影响。这不仅要求从业者在长期持续发展的过程中灵活采用防御技术来降低新攻击的风险，而且对理论研究提出了长期挑战[270]。

4.1.2 可信方面的摩擦影响

正如我们在第 2 节中所示，可信度的不同方面之间存在丰富的联系和支持。然而，研究表明，在某些情况下，这些方面之间存在摩擦或权衡，我们在此进行回顾。透明度的提高通过信息披露提高了对人工智能系统的信任。然而，披露不适当的信息可能会增加潜在风险。例如，数据集和算法的过度透明度可能会泄露私人数据和商业知识产权。详细算法机制的泄露也可能导致有针对性的黑客攻击的风险[12]。然而，不恰当的解释也可能导致用户过度依赖系统并遵循人工智能的错误决策[311]。因此，应针对公共用户、运营商和审计员的角色仔细且不同地指定人工智能系统的透明度程度。

从算法的角度来看，不同可信度目标对模型性能的影响仍未得到充分理解。对抗性鲁棒性提高了模型的通用性并减少了过度拟合，但往往对其整体准确性产生负面影响 [331, 380]。在可解释模型中也会出现类似的准确性损失[47]。除了这种信任与准确性的权衡之外，可信度维度之间还存在算法摩擦。例如，对抗性鲁棒性和公平性在训练过程中可能会相互产生负面影响[284, 361]。此外，关于公平性和可解释性的研究表明，几种解释方法是不公平的[98]。这些摩擦效应表明，人工智能的可信度不能通过在一组不相交的标准上爬山来实现。将多个需求集成到单个系统中时应仔细考虑兼容性。最近的研究 [361, 380] 提供了很好的参考。

4.1.3 当前可信度评估的局限性

可重复和定量的测量是科学和工程进步的基石。然而，尽管研究兴趣和努力不断增加，人工智能可信度的许多方面的量化仍然难以捉摸。在我们在本文中讨论的各个方面中，人工智能系统的可解释性、透明度和责任性仍然很少被定量评估，这使得准确比较系统变得困难。我们相信，针对这些需求开发良好的定量评估方法将是人工智能可信度这些方面研究的重要第一步，作为一项科学努力，而不是纯粹的哲学努力。

4.1.4 大规模预训练模型时代的挑战与机遇

大规模预训练模型为人工智能带来了巨大突破。它们不仅展示了更通用的人工智能形式的潜力[234]，而且为建立可信赖的人工智能带来了新的挑战和机遇。大规模预训练模型最重要的属性之一是能够以少样本或零样本学习的方式将其学到的知识转移到新任务中[55]。这很大程度上满足了人们对人工智能通用化的要求，并被认为具有巨大的商业应用价值。然而，最近的研究揭示了大规模预训练模型不可信的风险。例如，如第 2.2 节所述，众所周知，培训程序成本高昂且难以为第三方复制。大多数下游任务必须直接调整预训练模型，而无需审核其整个生命周期。这种商业模式存在下游用户可能受到这些模型中出现的任何偏差影响的风险[234]。隐私泄露是最近被揭露的另一个问题。据报道，一些预训练模型输出包含私人用户信息（例如地址）的训练文本数据[63]。大规模预训练模型的开发和应用正在加速。为了保证这一进步在造福社会的同时又不会带来新的风险，学术界和工业界都值得从人工智能可信度的角度仔细研究其潜在影响。

4.2 最终用户对人工智能可信度重要性的认识

除了人工智能系统的开发商和提供商之外，最终用户是一个重要但被选择性忽视的利益相关者群体。除了对公众进行有关人工智能可信度的基本概念的教育外，开发人员还应该考虑如何向用户展示它，以提供值得信赖的人工智能系统的实践体验。朝这个方向迈出的一个积极的一步是展示系统的局限性（例如，当输入文本无性别时，谷歌翻译会显示多个性别代词的翻译）或用于系统预测的可解释因素（例如，推荐系统可以共享用于策划广告的用户特征），如“20-29岁女性”和“对技术感兴趣”）。更进一步，我们相信这将使用户能够反事实地直接控制这些因素（例如用户特征），并自行判断系统是否公平、稳健和值得信赖。

最后，我们认识到，并非可信度的所有方面都可以同样轻松地传达给最终用户。例如，部署人工智能系统时，无法轻易向最终用户展示隐私保护或透明度的影响。我们相信，有关这些方面的媒体报道和政府法规对于提高公众意识非常有帮助。

4.3 跨学科和国际合作

对人工智能可信度的深入理解，不仅涉及到更好、更新的人工智能技术的发展，也需要我们更好地理解人工智能与人类社会的相互作用。我们相信这需要跨学科的合作，其范围远远超出了计算机科学的范围。首先，每当人工智能技术部署到现实世界并对人类产生影响时，例如在医学、金融、交通和农业领域，人工智能从业者就应该与领域专家密切合作。其次，人工智能从业者应该寻求社会科学家的建议，以更好地了解人工智能（通常是无意的）社会影响，并共同努力纠正这些影响，例如人工智能自动化决策的影响、受人工智能影响的行业中的工作岗位流失以及人工智能的影响。人工智能系统在社交网络中的使用。第三，人工智能从业者应仔细考虑如何向公众以及跨学科合作者展示该技术，并确保诚实、清晰地传达人工智能系统的已知局限性。

同时，可信人工智能的发展绝不是任何一个国家独有的问题，人工智能系统潜在的积极或消极影响也不分地缘政治边界。尽管人们普遍将人工智能描述为国家之间的竞赛（参见参考文献[145]的第3.2节），但在国际合作日益加强的背景下，技术进步远非零和游戏。它不仅使我们能够通过结合不同背景的不同想法来构建更好的技术解决方案，而且还有助于我们认识到我们共同的人性和独特的差异，从而更好地为世界人民服务。我们相信，紧密的跨学科和国际合作将成为值得信赖的人工智能技术快速稳定发展的基石，从而造福全人类。