Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI
可解释性人工智能(Explainable Artificial Intelligence, XAI):概念,分类,机遇和挑战,迈向负责任的人工智能
原文地址:Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI - ScienceDirect
前三章内容笔记在:可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(1)_线性回顾 逻辑回顾-CSDN博客
第四章内容笔记在:可解释性人工智能(Explainable Artificial Intelligence )综述学习笔记(2)-CSDN博客
5. XAI:机遇、挑战和未来研究需求
我们现在利用进行的文献综述来提出对ML和数据融合模型可解释性领域中取得的成就、趋势和仍需解决的挑战。实际上,我们对这一领域迄今为止取得的进展的讨论已经预示了其中的一些挑战。在本节中,我们将重新审视这些挑战,并探索XAI的新研究机会,确定可能在未来几年中有效解决这些挑战的研究路径:
- 当我们在第1节中介绍综述时,我们已经提到了模型可解释性和性能之间的平衡,从某种意义上说,使ML模型更具可理解性可能会最终降低其产生的决策的质量。在第5.1节中,我们将强调XAI发展的潜力,以有效地实现ML模型的可解释性和性能之间的最佳平衡。
- 在第2.2节中,我们强调了在AI领域内达成关于可解释性含义的共识的必要性。追求可解释性的原因也是多种多样的,在我们对迄今为止文献的评估中,这些原因并没有在相关工作中明确提及。在第5.2节中,我们将进一步深入探讨这一重要问题。
- 鉴于其在XAI文献中的显著普遍性,第4.3节和4.4节围绕一个特定的文献分类讨论了深度学习模型的可解释性,检查了迄今为止报告的进展。在第5.3节中,我们沿着同一方向前进,揭示了与这一系列模型的可解释性相关的几个挑战。
- 最后,我们以第5.4至5.8节结束这一前瞻性讨论,这些节将几个研究领域摆在桌面上,尽管它们与模型可解释性相关,但仍未得到学界的充分研究。
在深入探讨这些已识别的挑战之前,重要的是要记住,这一前瞻性部分由第6节补充,该节列举了与XAI相关的研究需求和开放问题,这些需求和问题与更广泛的背景相关:负责任AI的需求。
5.1. 关于可解释性和性能之间的平衡
关于可解释性与性能的问题是一个反复出现的问题,但正如任何其他重大声明一样,其周围充满了神话和误解。
正如[347]中完美指出的,更复杂的模型并不一定是固有的更准确的模型。当数据结构良好且我们拥有的特征质量高、价值大时,这一说法是错误的。这种情况在某些工业环境中相当常见,因为正在分析的特征受到非常受控的物理问题的限制,在这些物理问题中,所有特征高度相关,数据中可以探索的可能值范围并不多[348]。可以认为是真实的,是更复杂的模型比其简单模型具有更多的灵活性,允许近似更复杂的函数。现在,回到“更复杂的模型更准确”的说法,给出前提:要近似的函数涉及一定的复杂性,可用于研究的数据在每个变量的合适值范围内分布广泛,并且有足够的数据来利用复杂模型,这一说法呈现为真实的说法。正是在这种情况下,可以观察到性能和可解释性之间的平衡。值得注意的是,尝试解决不符合上述前提的问题将陷入试图解决一个没有提供足够数据多样性(方差)的问题的陷阱。因此,模型的额外复杂性只会与准确解决问题的任务冲突。
在追求性能的道路上,当性能与复杂性携手并进时,可解释性发现自己处于一个直到现在似乎不可避免的下降斜坡上。然而,更复杂的可解释性方法的出现可能会逆转或至少取消那个斜坡。图12展示了由先前工作[7]启发的尝试表示,XAI展示了其改善模型可解释性和性能之间常见平衡的潜力。此时值得提及的另一个方面是近似困境:为ML模型所做的解释必须足够激进和近似,以符合寻求解释的受众的要求,确保解释代表所研究的模型,并且不会过度简化其基本特征。
5.2. 关于概念和指标
文献明确要求对可解释性有一个统一的概念。为了使该领域蓬勃发展,至关重要的是为学界提供一个共同的基础,以便贡献新的技术和方法。一个共同的概念必须传达该领域明确的需求。它应该为每个XAI系统提出一个共同的结构。本文尝试了一个新的可解释性概念的提议,该提议建立在Gunning[7]的概念之上。在该提议和随后完善中(第2.2节),可解释性被定义为模型使其功能对受众更清晰的能力。为了应对这一挑战,存在事后类型的方法。本文中描绘的概念可能并不完整,但正如它所呈现的那样,允许第一个共同的基础和参考点,以维持这一问题的有益讨论。至关重要的是,XAI领域在这一方面达成一致,将广泛领域的分散努力结合在同一个旗帜下。
另一个需要与具体概念相关联的关键特征是存在的指标。一个指标或一组指标应该允许有意义地比较模型在可解释性定义方面表现如何。如果没有这样的工具,任何相关声明都会在文献中淡化,没有坚实的立足点。这些指标,如经典指标(准确性、F1、敏感性等),应该表达模型在可解释性的某个方面表现如何。最近围绕XAI测量的一些尝试已在[349,350]中进行了全面探讨。一般来说,XAI测量应该评估解释的质量(goodness)、有用性(usefulness)和满意度(satisfaction),模型解释诱导的受众心理模型的改进,以及解释对模型性能和受众信任和依赖的影响。在[349]和[350]中调查的测量技术(例如,质量检查表、解释满意度、心理模型的引出方法、解释者保真度的计算测量、解释的信任度和模型的可靠性)似乎是评估XAI技术方向的一个良好推动。不幸的是,从这些概述中得出的结论与我们对领域的前景一致:更可量化的通用XAI指标确实被需要来支持学界提出的现有测量程序和工具。
本综述不处理设计这样一套指标的问题,因为这样的任务应该由整个学界在接受更广泛的可解释性概念之前进行,这也是当前工作的目标之一。尽管如此,我们倡导进一步努力提出新的提议来评估XAI技术的性能,以及允许在不同应用背景、模型和目的下定量对比不同XAI方法的比较方法。
5.3. 实现可解释深度学习的挑战
尽管目前在XAI领域做出了许多努力,但在能够获得DL模型的可解释性之前,仍有许多挑战需要面对。首先,如第2.2节所述,围绕XAI的词汇和不同定义缺乏共识。例如,我们经常看到特征重要性(feature importance)和特征相关性(feature relevance)指的是相同的概念。这在可视化方法中更为明显,在可视化方法中,对于所谓的显著性图(saliency maps)、显著性掩码(salient masks)、热图(heatmaps)、神经元激活(neuron activations)、归因(attribution)等方法,背后没有一致性。由于XAI是一个相对年轻的领域,学界还没有标准化的术语。
正如第5.1节所评论的,可解释性与准确性之间存在权衡[13],即系统对其内部功能的信息简单性与这种描述的详尽性之间的权衡。无论观察者是该领域的专家、政策制定者还是没有机器学习知识的用户,可理解性并不需要在同一水平上使受众理解[6]。如上所述,这就是为什么XAI的一个挑战是建立客观指标,以确定什么是好的解释。减少这种主观性的一个可能性是从人类心理学、社会学或认知科学实验中汲取灵感,以创建客观的、令人信服的解释。在[12]中强调了创建可解释AI模型时应考虑的相关发现:首先,具有约束性的解释效果更好,这意味着好的解释的先决条件是它不仅表明模型为什么做出决策X,而且还表明为什么它做出决策X而不是决策Y。还解释说,概率不如因果关系重要,以提供令人满意的解释。考虑到黑盒模型倾向于以定量方式处理数据,将概率结果转化为包含因果关系的定性概念是必要的。此外,他们指出解释是选择性的,意味着仅关注决策过程的主要原因就足够了。还展示了使用反事实解释(counterfactual explanations)可以帮助用户理解模型的决策[40,42,351]。
结合连接主义和符号范式似乎是解决这一挑战的有利方式[169,299,352,353]。一方面,连接主义方法更精确但不透明。另一方面,符号方法通常被认为效率较低,但它们提供了更大的可解释性,因此尊重上述条件:
- 能够引用既定推理规则允许符号方法具有约束性。
- 使用例如本体论(ontology)的形式化的知识库可以直接以定性方式处理数据。
- 对于连接主义模型来说,选择性不如符号模型那样直接。
回想一下,一个好的解释需要影响用户的心理模型,即使用符号表示外部现实,因此,使用符号学习范式来产生解释似乎是合适的。因此,神经符号(neural-symbolic)可解释性可以提供令人信服的解释,同时保持或提高一般性能[297]。
如[24]所述,一个真正可解释的模型不应该将解释生成留给用户,因为根据他们的背景知识,可能会推断出不同的解释。拥有知识的语义表示可以帮助模型具有产生解释的能力(例如,以自然语言[169]),结合常识推理和人类可理解的特征。
此外,在采用客观指标之前,似乎有必要努力严格规范评估方法。一种方法可能是从社会科学中汲取灵感,例如,在选择评估问题和用于评估的人群样本时保持一致[354]。
XAI方法需要解决的最后一个挑战是为社会、政策制定者和法律提供可访问的解释。特别是,传达需要非技术专业知识的解释将是处理模糊性和在欧盟通用数据保护条例(EU general data protection regulation, GDPR)[355]中发展(尚未可用的)解释权的社会权利的关键。
5.4. AI安全性解释:XAI和对抗性机器学习
关于XAI的保密性问题还没有被提及。最近的一篇综述非常简要地介绍了算法所有和商业秘密的概念[14]。然而,对这些概念的关注并不多。如果保密性是使某物成为秘密的属性,则在AI背景下,模型中涉及的许多方面可能具有这种属性。例如,想象一下一家公司通过在特定领域多年的研究开发出的模型。模型中综合的知识可能被认为是保密的,并且即使只提供输入和输出访问,也可能被泄露[356]。后者表明,在最小假设下,数据模型功能盗窃是可能的。[357]中一种使DL模型对知识产权暴露更具鲁棒性的方法是基于一系列不可访问的查询。这项最近的工作揭示了进一步研究发展XAI工具的必要性,这些工具能够在保持模型保密性的同时解释ML模型。
理想情况下,XAI应该能够解释AI模型中的知识,并且能够推理模型执行所依据的内容。然而,XAI技术揭示的信息既可以用于在对抗性环境中生成更有效的攻击,以混淆模型,同时也可以用于利用这些信息更好地保护私有内容免受暴露。对抗性攻击[358]试图在学习了应该向系统提供哪些特定信息以导致其产生特定输出之后操纵ML算法。例如,对于监督的ML分类模型,对抗性攻击试图发现对输入数据应用的最小变化,以导致不同的分类。这在自动驾驶车辆的计算机视觉系统中已经发生;对停止信号的微小变化,对人眼不可见,导致车辆将其检测为45英里/小时信号[359]。对于DL模型的特定情况,可用的解决方案如Cleverhans[360]旨在检测对抗性漏洞,并提供不同的方法来增强模型以抵御它们。其他示例包括SVM模型的AlfaSVMLib[361]和用于逃避攻击的AdversarialLib[362]。甚至还有针对无监督ML的可用解决方案,如聚类算法(clustering algorithm)[363]。
虽然XAI技术可以用于提供更有效的对抗性攻击或揭示模型本身的保密方面,但一些最近的文献已经利用生成对抗网络(generative adversarial networks, GANs[364])、变分自编码器(variational autoencoders)[365]和其他生成模型(generative models)的可能性来解释基于数据的决策。一旦训练完成,生成模型可以根据噪声输入向量(noise input vector)生成它们所学到的实例,该向量可以被解释为手头数据的潜在表示。通过操纵这个潜在表示并检查其对生成模型输出的影响,可以得出见解并发现与要预测的类别相关的特定模式。这种生成框架已被几项最近的研究[366,367]主要采用,作为归因方法,以将深度学习模型的特定输出与其输入变量相关联。另一个有趣的研究方向是使用生成模型创建反事实,即对输入数据的修改,最终可能改变模型的原始预测[368]。反事实原型帮助用户了解所考虑模型的性能边界,以便他们更好地信任和批评。鉴于这一最新趋势,我们绝对相信生成ML模型在需要可理解机器决策的场景中还有很长的路要走。
5.5. XAI和输出信心
在依赖AI模型输出的过程中,例如自动驾驶车辆中的车辆感知和自动驾驶、自动化手术、基于数据支撑的医学诊断、保险风险评估和制造中的网络物理系统等,也已经研究了安全性问题[369]。在所有这些场景中,模型输出的错误可能导致有害后果,这已经导致了全面的监管努力,以确保不仅仅基于数据处理做出决策[3]。
与此同时,研究围绕最小化由ML模型输出做出的决策所衍生的伤害风险和不确定性已经开展。因此,已经提出了许多技术来减少这种风险,其中我们暂停在评估模型输出信心以做出决策。在这种情况下,检查输入数据的认识不确定性(即,由于缺乏知识而产生的不确定性)及其与模型输出信心的对应关系,可以告知用户并最终触发他们拒绝模型输出[370,371]。为此,通过XAI技术解释模型在产生给定输出时关注输入数据的哪个区域,可以区分输入域中可能的认识不确定性来源。
5.6. XAI、理由解释和关键数据研究
当将焦点转移到数据科学中的研究实践时,可重复性不仅严格受到仅与学界共享数据、模型和结果的限制,还受到关于数据收集、理解、假设和从模型构建和结果分析中得出的完整论述信息的可用性的限制[372]。换句话说,为了将数据转化为有价值的可操作资产,个人必须通过共享产生其发现的背景来参与协作的意义构建,在这里,背景指的是围绕数据如何被处理、清理、建模和分析的一系列叙事故事。在这个话语中,我们发现了采用XAI技术的有趣空间,因为它们具有强大的能力,可以以可理解的方式描述黑盒模型,因此可以向社会科学、政治、人文学科和法律领域的同行传达。
XAI可以有效地简化向非专家用户解释模型做出决策的原因的过程,即理由解释(rationale explanation)。这种跨学科团队在与数据科学相关的项目中的融合,以及寻找使他们能够评估其基于数据的选择的伦理影响的方法的追求,最近被称为关键数据研究(critical data studies)[373]。正是在这个领域,XAI可以显著促进关于模型所学到的知识的信息在不同受众之间的交流。
5.7. XAI和理论指导的数据科学
我们设想XAI领域与理论指导的数据科学(theory-guided data science)之间令人兴奋的协同作用,[374]提出了一种范式,它结合了数据科学和数据产生的应用/背景中的经典理论原则。这种新兴范式的背后理由是数据驱动模型的需要,以生成知识,使其实施领域所带来的先验知识。这意味着应该根据我们打算遇到的关系类型选择模型类型。结构也应该遵循先前已知的内容。同样,训练方法不应允许优化过程进入不合理的区域。因此,正则化项(regularization terms)应该代表该领域的先验前提,避免消除较差表现的真正关系以换取虚假和欺骗性的关系。最后,模型的输出应该告知模型所学到的一切,允许推理和合并新知识与该领域已知的内容。
目前已有许多实现这一方法的例子,并具有有希望的结果。[375-382]中的研究在不同领域进行,展示了这一新数据科学范式的潜力。最重要的是,值得注意的是与XAI共享的理论指导的数据科学的所有概念和要求是相似的。[374]中提出的所有补充都推动了最终提供模型可解释的技术,并且知识一致性。知识从一开始(knowledge from the beginning)的概念,是理论指导的数据科学的核心,也必须考虑如何解释模型所捕获的知识,以评估其与先前已知的理论原则的一致性。这再次为XAI打开了一个巨大的机会之窗。
5.8. 确保可解释AI模型的指南
最近的综述强调了使基于AI的模型可解释的过程的多学科和包容性。在这个过程中,考虑与系统解释互动的所有利益相关者的利益、需求和要求至关重要,从系统的设计者到消费其产生的输出的决策者,以及承受由此产生的决策后果的用户。
鉴于多个标准的融合和需要将人类置于循环中,最近一些尝试在实施和解释AI系统中建立程序指南已经出现。其中,我们在[383]进行了全面的研究,该研究建议在实际AI设计和部署工作流程中纳入和考虑可解释性应包括四个主要的方法论步骤:
1)在设计可解释性方法时,必须考虑背景因素(contextual factors)、潜在影响(potential impacts)和领域特定需求(domain-specific needs):这些包括对AI模型构建目的的全面理解,受众所需理解的复杂性,以及现有技术、模型和方法的性能和可解释性水平。后者为要部署的AI系统提供了参考点。
2)如果可能,应优先考虑可解释技术:在考虑AI系统的开发中的可解释性时,选择哪种XAI方法应衡量领域特定风险和需求、可用的数据资源和现有领域知识,以及ML模型满足所要解决的计算任务要求的适用性。正是在这些三个设计驱动因素的融合中,[383]中提出的方法论指南(以及其他类似的研究[384])建议首先考虑标准的可解释模型,而不是复杂但不透明的建模方法。在实践中,上述方面(背景因素、影响和领域特定需求)可以使透明模型优于复杂的建模替代方案,这些替代方案的可解释性需要应用事后XAI技术。相比之下,如本文提到的黑盒模型(即,支持向量机、集成方法和神经网络)只有在其优越的建模能力最适合手头问题的特性时才应被选择。
3)如果选择了黑盒模型,第三条指南规定应权衡与伦理、公平性和安全性相关的影响。具体来说,应确保AI系统设计和实施中的责任,通过检查是否可以通过补充系统的XAI工具以提供领域所需的可解释性水平来减轻和抵消这些已识别的影响。为此,第三条指南建议①详细阐述、检查和评估适用的解释策略,②分析可用的解释方法的覆盖范围是否符合模型部署领域和应用背景的要求,③制定可解释性行动计划,该计划概述了解释交付策略,包括行动计划执行的详细时间框架,以及参与工作流程的团队的角色和责任的明确划分。
4)最后,第四条指南鼓励从个体人类的认知技能、能力和局限性的角度重新思考可解释性。这是一个重要问题,许多关于可解释性度量的研究都在考虑人类心理模型(human mental models)、受众对解释结果词汇的可访问性,以及让受众的专业知识参与到应该提供什么解释的决定中。
从上述阐述中可以看出,[383]中提出的指南将通过未来的方法论研究得到补充和丰富,最终实现AI的更负责任的使用。方法论原则确保通过将所有参与者的多种要求纳入过程,以及其他同样重要的普遍方面,如无歧视、可持续性、隐私或可问责性,实现追求可解释性的目的。在实现负责任的AI方面,XAI的潜力仍需挖掘,正如我们在下一节讨论的那样。
6. 朝着负责任的AI迈进:人工智能原则、公平性、隐私和数据融合
多年来,许多组织,无论是私营还是公共部门,都发布了指导AI开发和使用的指南。这些指南通常被称为AI原则,它们涉及AI对个人和整个社会的潜在威胁。本节介绍了一些最重要和广泛认可的原则,以将XAI——通常出现在其自身原则中——与所有这些原则联系起来。如果在实践中寻求负责任地实施和使用AI模型,我们坚定地认为,XAI本身是不够的。其他重要的人工智能原则,如隐私和公平性,必须在实践中谨慎处理。在以下部分中,我们将详细阐述负责任AI的概念,以及XAI和数据融合在实现其提出的原则中的影响。
6.1. 人工智能原则
最近对自2016年以来发布的一些主要AI原则的回顾出现在[385]中。在这项工作中,作者展示了一个视觉框架,其中不同的组织根据以下参数进行分类:
性质,可以是私营部门、政府、政府间组织、民间社会或多利益相关者。
原则内容:八个可能的原则,如隐私、可解释性或公平性。他们还考虑了文件对每个考虑的原则的覆盖范围。
目标受众:原则是针对谁的。它们通常是为制定它们的组织,但也可以针对其他受众(见图2)。
是否基于国际人权,以及是否明确谈论它们。
例如,[386]是本概述中AI原则文档的一个说明性示例,因为它涵盖了一些最常见的原则,并明确处理可解释性。在这里,作者提出了五个主要原则,主要用于指导其公司内部AI的开发,同时指出它们也可以用于其他组织和企业。这些原则的作者旨在以一种直接加强包容性、为每个人提供平等机会,并为共同利益做出贡献的方式开发AI。为此,应考虑以下方面:
使用AI系统后的输出不应导致对个人或集体的任何形式的歧视,涉及种族、宗教、性别、性取向、残疾、民族或任何其他个人条件。因此,在优化AI系统结果的基本标准中,不仅应考虑它们在错误优化方面的输出,还应考虑系统如何处理这些群体。这定义了公平AI原则。
人们应该始终知道他们是在与人交流,还是在与AI系统交流。人们还应该知道他们的个人信息是否被AI系统使用以及用于什么目的。确保对AI系统做出的决策有一定的理解至关重要。这可以通过使用XAI技术来实现。重要的是,生成的解释应考虑将接收这些解释的用户的配置文件(根据第2.2节中给出的定义中的受众),以便调整透明度水平,如[45]中所述。这定义了透明和可解释的AI原则。
AI产品和服务应始终与联合国的可持续发展目标[387]保持一致,并以积极和切实的方式为它们做出贡献。因此,AI应始终为人类和共同利益带来好处。这定义了以人为本的AI原则(也称为AI用于社会公益[388])。
AI系统,特别是当它们由数据提供时,应始终在其整个生命周期中考虑隐私和安全标准。这一原则不是AI系统的专属,因为它与许多其他软件产品共享。因此,它可以继承公司已经存在的流程。这定义了隐私和安全设计原则,它也被确定为智能信息系统面临的负责任研究和创新(RRI,[389])范式下的核心伦理和社会挑战之一。RRI指的是一套方法论指南和建议,旨在从实验室到全球社会挑战(如可持续性、公众参与、伦理、科学教育、性别平等、开放获取和治理)的更广泛背景中考虑科学研究。有趣的是,RRI还要求在采纳其原则的项目中确保开放性和透明度,这直接与前面提到的透明和可解释的AI原则相关。
作者强调,所有这些原则应始终扩展到任何第三方(供应商、顾问、合作伙伴等)。
超越这些五个AI原则的范围,欧洲委员会(EC)最近发布了可信AI的伦理指南[390],通过一个评估清单,可以由与AI系统相关的不同角色(即产品经理、开发人员和其他角色)完成。评估基于一系列原则:1)人类代理和监督;2)技术鲁棒性和安全性;3)隐私和数据治理;4)透明度、多样性、非歧视和公平性;5)社会和环境福祉;6)可问责性。这些原则与本节详细的原则一致,尽管EC原则的范围更广泛,包括任何参与AI开发的组织。值得注意的是,大多数这些AI原则指南直接处理XAI作为AI系统中需要考虑和包含的关键方面。事实上,前面提到的这些原则的概述[385]表明,在分析中覆盖的32个AI原则指南中,有28个明确包括XAI作为关键组成部分。因此,本文的工作和范围直接涉及全球范围内AI最重要的方面之一。
6.2. 公平性和可问责性
如前一节所述,除了XAI之外,过去十年中发布的不同AI原则指南中还有许多关键方面。然而,这些方面并没有完全脱离XAI;实际上,它们是相互交织的。本节介绍了两个在AI原则指南中具有巨大相关性的关键组成部分,公平性和可问责性,并强调了它们与XAI的联系。
6.2.1. 公平性和歧视
在识别受保护和不受保护特征之间的隐含相关性方面,XAI技术在歧视感知数据挖掘方法中找到了它们的位置。通过分析模型输出相对于输入特征的行为,模型设计者可以揭示输入变量之间的隐含相关性,这些相关性可能导致歧视。XAI技术,如SHAP[224],可以用来生成反事实结果,解释当输入受保护和不受保护的变量时ML模型的决策。回顾前一节中引入的公平AI原则,[386]提醒说,公平性是一个通常包括在数据集中检测偏差的提案的学科,这些偏差影响受保护群体(通过性别、种族等变量)。事实上,黑盒模型的伦理问题源于它们倾向于通过考虑敏感因素(如个人的种族、年龄或性别)无意中产生不公平的决策[391]。不幸的是,这种不公平的决策可能导致歧视问题,无论是通过明确考虑敏感属性还是通过使用与敏感数据相关的因素。实际上,一个属性可能隐含地编码一个受保护的因素,如信用评分中的邮政编码[392]。上述以公平性为中心的提案允许发现非敏感变量与敏感变量之间的相关性,检测算法的不平衡结果,这些结果惩罚了特定的子群体(歧视),并减轻偏差对模型决策的影响。这些方法可以处理:
个体公平性:在这里,公平性通过模拟每个个体与整个人群之间的差异来分析。
群体公平性:它从所有个体的角度处理公平性。
反事实公平性:它试图使用因果图等来解释偏差的原因。
偏差的来源,如[392]中指出的,可以追溯到:
数据偏差:数据获取过程中的偏差。
数据污染:数据建模定义中的错误、错误的特征标记和其他可能的原因。
特征限制:使用太少的特征可能导致推断出虚假的特征关系,从而导致偏差。
样本大小差异:在使用敏感特征时,不同子群体之间的差异可能会导致偏差。
代理特征:可能存在与敏感特征相关的特征,即使数据集中没有敏感特征,也可能导致偏差。
接下来要问的问题是,可以使用什么标准来定义AI何时不具有偏差。对于监督ML,[393]提出了一个框架,使用三个标准来评估数据集中存在敏感特征时的群体公平性:
独立性:当模型预测与敏感特征独立时,满足此标准。因此,模型给出的正样本(即属于感兴趣类别的样本)的比例对敏感特征内的所有子群体都是相同的。
分离性:当模型预测在给定目标变量的情况下与敏感特征独立时,满足此标准。例如,在分类模型中,真正例(TP)率和假正例(FP)率在敏感特征内的所有子群体中都是相同的。这个标准也被称为等化机会。
充分性:当目标变量在给定模型输出的情况下与敏感特征独立时,满足此标准。因此,正预测值对敏感特征内的所有子群体都是相同的。这个标准也被称为预测率平价。
虽然不能同时满足所有标准,但可以共同优化它们,以最小化ML模型中的偏见。可以使用两种可能的操作来实现这些标准。一方面,评估包括测量模型中存在的偏差量(关于上述标准之一)。可以使用许多不同的度量,具体取决于考虑的标准。对于独立性标准,可能的度量包括统计奇偶校验差异或差异影响。对于分离性标准,可能的度量包括等机会差异和平均奇偶校验差异[393]。另一个可能的度量是Theil指数[394],它在个体和群体公平性方面衡量不平等。另一方面,缓解指的是修复模型的某些方面以消除偏差对一个或多个敏感特征的影响的过程。文献中存在几种技术,按以下类别分类:
预处理:这些技术组在ML模型训练之前应用,旨在在学习过程的第一步中消除偏差。一个例子是重加权[395],它通过修改特征的权重来消除敏感属性中的歧视。另一个例子是[396],它依赖于转换输入数据以找到一个良好的表示,该表示混淆了敏感特征的成员信息。
处理中:这些技术在ML模型的训练过程中应用。通常,它们包括与ML模型的成本函数一起的公平性优化约束。一个例子是对抗性去偏差[397]。该技术同时优化预测目标变量的能力和最小化预测敏感特征的能力,使用生成对抗网络(GAN)。
后处理:这些技术在ML模型训练之后应用。它们较少侵入性,因为它们不修改输入数据或ML模型。一个例子是等化机会[393]。该技术允许调整分类模型中的阈值,以减少每个敏感子群体的TP率和FP率之间的差异。
尽管这些参考文献似乎涉及一个与XAI独立的AI原则,但文献表明它们是相互交织的。例如,[385]中的调查表明,在处理XAI的28个AI原则中,有26个也明确讨论了公平性。这一事实阐明了组织在实施负责任的AI时通常同时考虑这两个方面。文献还揭示了XAI提议可以用于偏差检测。例如,[398]提出了一个框架,用于可视化模型中存在偏差(包括个体和群体公平性)。因此,公平性报告就像XAI中使用的视觉摘要一样被展示。这种可解释性方法简化了偏差的理解和测量。系统必须报告存在偏差,定量证明,指示公平性的程度,并解释为什么用户或群体会因可用数据而受到不公平对待。同样,XAI技术,如SHAP[224],可以用来生成反事实结果,解释当输入受保护和不受保护的变量时ML模型的决策。通过使用XAI技术识别受保护和不受保护特征之间的隐含相关性,模型设计者可以揭示可能导致歧视的输入变量之间的隐含相关性。
另一个例子是[399],其中作者提出了一种公平性设计方法,以开发具有较少偏差并包含人类可理解规则的ML模型。该提议基于自学习局部生成模型,该模型仅使用可用数据集的一小部分(弱监督)。它首先递归地在数据集中找到相关原型,并提取围绕它们的点的经验分布和密度。然后,它以IF/THEN格式生成规则,解释数据点被分类到特定类别是因为它与某些原型相似。该提议还包括一个算法,该算法既生成解释又减少偏差,如在使用COMPAS数据集的累犯用例中所证明的[400]。同样的目标最近在[401]中被追求,展示了事后XAI技术可以从真正不公平的黑盒模型中锻造更公平的解释。最后,CERTIFAI(人工智能模型的健壮性、透明度、可解释性和公平性的反事实解释)[402]使用定制的遗传算法生成反事实,这可以帮助同时查看ML模型的健壮性、生成解释和检查公平性(既有个体层面也有群体层面)。
与公平性概念密切相关的是数据多样性的概念,这在最近受到了大量关注,它基本上指的是算法模型确保其输出中所有不同类型的对象都得到代表的能力[403]。因此,多样性可以被认为是一个指标,用于量化当其形式为模型输出时,集合的质量,它可以量化模型产生多样化结果的倾向,而不是高度准确的预测。多样性在具有伦理限制的人类中心应用中发挥作用,这些限制渗透到AI建模阶段[404]。同样,某些AI问题(如内容推荐或信息检索)也旨在产生多样化的推荐,而不是高度评分但相似的结果[405,406]。在这些场景中,通过XAI技术解剖黑盒模型的内部可以帮助识别模型在输出中保持输入数据多样性的能力。通过XAI技术赋予模型多样性的学习策略可以补充,以阐明模型内部的透明度,并评估这些策略相对于模型训练数据的多样性方面的有效性。相反,XAI可以帮助区分模型的哪些部分危及其整体保持多样性的能力。
6.2.2. 可问责性
关于可问责性,EC[390]定义了以下需要考虑的方面:
可审计性:包括对算法、数据和设计过程的评估,同时保留与AI系统相关的知识产权。通过内部和外部审计师进行评估,并使报告可用,可以为技术的可信度做出贡献。当AI系统影响基本权利,包括安全关键应用时,应始终由外部第三方进行审计。
负面影响的最小化和报告:包括报告系统产生的行动或决策导致的某些结果。它还包括对这些结果的评估以及如何应对它们。为此,AI系统的发展还应考虑其潜在负面影响的识别、评估、记录和最小化。为了最小化潜在的负面影响,应在AI系统的开发、部署和使用之前和期间进行影响评估。还重要的是保证对提出AI系统关注的人(例如,告密者)的保护。所有评估必须与AI系统所构成的风险成比例。
权衡:如果由于实施上述要求而出现任何紧张关系,可以考虑权衡,但只有在它们在伦理上可接受的情况下。这些权衡应被合理化、明确承认和记录,并且必须在伦理原则的风险方面进行评估。决策者必须对适当权衡的制定方式负责,并且所决定的权衡应不断审查,以确保决策的适当性。如果没有伦理上可接受的权衡,AI系统的发展、部署和使用不应以该形式进行。
补救:包括确保在发生不可预见的不公正不利影响时提供适当的补救机制。保证对这些不可预见场景的补救是确保信任的关键。应特别关注弱势个人或群体。
EC强调的这些方面突出了XAI与可问责性之间的不同联系。首先,XAI有助于可审计性,因为它可以帮助向不同配置文件的AI系统提供解释,包括监管配置文件。此外,由于公平性与XAI之间的联系如前所述,XAI也可以有助于最小化和报告负面影响。
6.3. 隐私和数据融合
如今几乎在所有活动领域中日益增长的信息源数量,需要数据融合方法,以便同时利用它们来解决学习任务。通过合并异构信息,数据融合已被证明可以提高许多应用中ML模型的性能,如工业预测[348]、网络物理社会系统[407]或物联网[408]等。本节推测数据融合技术在丰富ML模型的可解释性方面的潜力,以及危及ML模型学习数据的隐私。为此,我们简要概述了不同的数据融合范式,并从数据隐私的角度进行分析。正如我们稍后将看到的,尽管其在负责任AI背景下的相关性,XAI和数据融合的交汇是当前研究主流中的一个未开发的研究领域。
6.3.1. 数据融合的基本层次
我们从全面调查中识别出的不同数据融合层次开始[409-412]。在本小节的背景下,我们将区分数据层次、模型层次和知识层次的融合。此外,可以根据数据处理和融合的位置建立平行分类,产生集中式和分布式数据融合方法。在集中式方法中,节点将其本地捕获的数据传递给集中式处理系统以合并它们。相比之下,在分布式方法中,每个节点合并其本地捕获的信息,最终与对应节点共享本地融合的结果。通过信息生成过程的融合具有根据融合执行的层次所具有的属性和特点。在所谓的数据层次上,融合处理原始数据。如图13所示,该阶段的融合模型从不同的信息源接收原始数据,并将它们组合以创建更连贯、合规、健壮或简单代表性的数据流。另一方面,模型层次的融合聚合模型,每个模型都是从要融合的数据集的子集中学习的。最后,在知识层次上,融合方法处理以规则、本体或其他知识表示技术形式的知识,意图将它们合并以创建比最初提供的新、更好或更完整的知识。从每个数据源和数据集的每个项目中提取结构化知识信息,使用多个知识提取器(例如,在开放语义数据库上操作的推理引擎)。所有产生的信息随后被融合,以进一步确保对数据集项目产生的知识的质量、正确性和可管理性。除了图13中表示的数据融合方法之外,还存在其他数据融合方法。因此,数据层次的融合可以由专门用于此目的的技术执行(如图13.b所示),或者相反,可以在ML模型的学习过程中执行(如DL模型中所做的)。
6.3.2. 新兴数据融合方法
在下一小节中,我们检查了由于其在数据隐私方面的含义而最近出现的其他数据融合方法:
在大数据融合(图13.d)中,本地模型是在原始数据源的分割上学习的,每个分割提交给一个负责执行此学习过程的工作者节点(Map任务)。然后,一个Reduce节点(或根据应用情况,多个Reduce节点)组合每个Map任务产生的输出。因此,大数据融合可以被视为一种将学习ML模型的复杂性分布在工作者节点池上的方法,其中设计信息/模型如何在Map和Reduce任务之间融合的策略定义了最终生成结果的质量[413]。
相比之下,在联合学习[414-416]中,ML模型的计算是在远程客户端设备本地捕获的数据上进行的(图13.e)。在本地模型训练之后,客户端将关于他们学到的知识的加密信息传输到中央服务器,这可以采取神经ML模型的层间梯度或任何其他模型依赖内容的形式。中央服务器聚合(融合)从所有客户端接收到的知识贡献,以产生一个共享模型,利用从客户端池中收集的信息。重要的是要观察到没有客户端数据被传递到中央服务器,这激发了联合学习的隐私保护性质。此外,计算更接近收集的数据,这减少了处理延迟,并减轻了中央服务器的计算负担。
最后,多视图学习[417]根据不同数据源中包含的信息构建对象的不同视图(图13.f)。这些视图可以从多个信息源和/或不同的特征子集产生[418]。多视图学习设计策略,以共同优化从上述视图中学习的ML模型,以增强泛化性能,特别是在那些数据监督较弱且容易模型过拟合的应用中。这种共同优化依赖于不同的算法手段,从共同训练到共同正则化[419]。
6.3.3. 在负责任AI范式下隐私和数据融合的机会和挑战
AI系统,特别是当处理多个数据源时,需要在系统生命周期中明确包括隐私考虑。这在处理个人数据时尤其关键,因为尊重个人的隐私权始终应该得到解决。EC强调隐私还应包括数据治理,涵盖使用的数据的质量和完整性[390]。它还应包括定义访问协议和处理数据的能力,以确保隐私。EC指南将隐私原则分解为三个方面:
隐私和数据保护:它们应在AI系统的整个生命周期中得到保证。包括用户提供的信息和从用户与系统的交互中派生的信息。由于关于用户的数字信息可能以负面方式用于对抗他们(由于敏感特征的歧视、不公平对待等),因此确保所有收集的数据的适当使用至关重要。
数据的质量和完整性:数据集的质量是实现AI系统良好性能的基础,这些系统由数据驱动,如ML。然而,有时收集的数据包含社会构建的偏见、不准确、错误和错误。这应在使用收集的数据训练任何模型之前解决。此外,应确保数据集的完整性。
数据访问:如果有个人个人数据,应始终有数据治理协议。这些协议应指明谁可以访问数据以及在何种情况下可以访问。
上述EC示例展示了数据融合如何直接与隐私和公平性交织在一起,无论采用哪种技术。尽管监管机构有这种明确的关注,但在没有数据融合的情况下,DL方法已经危及隐私。例如,几张图像足以威胁用户隐私,即使在图像模糊的情况下[420],并且通过简单地在模型上执行输入查询,DNN的模型参数也可以被暴露[356,357]。一种解释隐私损失的方法是使用隐私损失和意图损失主观分数。前者提供了根据图像中面孔的角色对隐私侵犯的严重性进行主观衡量,而后者捕捉了旁观者出现在图片中的意图。这些类型的解释激发了例如摄影师和旁观者之间安全匹配密码协议的动机,以保护隐私[356,421,422]。我们绝对倡导在这一方向上投入更多努力,即确保XAI方法不会对用于训练目标ML模型的数据的隐私构成威胁。当数据融合进入画面时,会出现不同的影响,与本综述中涵盖的可解释性背景相关。首先,经典的数据层次融合技术只处理数据,与ML模型没有联系,因此与可解释性关系不大。然而,DL模型的出现模糊了信息融合和预测建模之间的区别。DL架构的第一层负责从原始数据中学习对任务相关的高级特征。这个学习过程可以被认为旨在解决数据层次融合问题,但以一种有指导的学习方式,使融合过程与要解决的任务紧密耦合。在这种背景下,XAI领域已经提出了许多技术来处理特征之间的相关性分析。这为解释数据源实际上是如何通过DL模型融合的铺平了道路,这可以为如何预测任务在空间和/或时间域中诱导数据源之间的相关性提供有趣的见解。最终,获得的关于融合的信息不仅可以提高模型的可用性,因为用户对其理解增强,还可以帮助识别可能对模型感兴趣的其他数据源,或者甚至有助于在其他上下文中更有效的数据融合。不幸的是,上述数据层次融合的概念考虑了已知形式和来源的数据。如[423]中呈现的,大数据时代呈现了一个环境,在这个环境中,这些前提不能被理所当然地接受,必须考虑大数据融合的方法(如图13.d中所示)。相反,在模型融合背景下出现了一个问题,即XAI技术是否足够解释以危及私有数据的保密性。如果敏感信息(例如所有权)可以从解释的受保护和不受保护特征之间的融合中推断出来,这最终可能会发生。在转向模型层次的数据融合前景时,我们已经论证了几个透明模型(如树集成)的输出融合可以使整体模型不透明,从而需要求助于事后可解释性解决方案。然而,模型融合可能在配备强大的事后XAI技术时带来其他缺点。让我们想象一下,通过事后技术发现了模型输入特征之间的关系,其中一种特征是隐藏的或未知的。如果已知该特征在该模型中使用,是否可能推断出另一个模型的特征?这种可能性是否会在相关受保护的输入变量甚至没有共享的情况下,揭露隐私侵犯问题?为了使示例更清晰,在[424]中使用了多视图视角,其中不同的单视图(代表它们关注的来源)模型被融合。这些模型中包含手机数据、交通数据等,可能引入的问题是,即使不共享的信息也可以通过实际共享的其他来源发现。在上述示例中,如果特征被共享,模型与另一个模型共享其架构的一部分或层,如联邦学习中那样,是否会使共享该模型部分成为可能,以允许设计具有更好成功率的对抗性攻击?如果关注知识层次的融合,类似的推理是成立的:XAI包括从ML模型中提取知识的技术。这种能力解释模型可能会对通过ML模型中形成的复杂交互发现新知识的必要性产生影响。如果是这样,XAI可能会丰富知识融合范式,带来可能对当前任务相关的知识提取器的新发现。为此,至关重要的是,通过XAI技术从模型中提取的知识可以被理解和外推到知识提取器运作的领域。这个概念与[425]中描绘的迁移学习概念轻松匹配。尽管XAI没有被考虑在调查从某些特征空间和分布中训练的模型中提取知识的过程,并在部署时在先前条件不成立的环境中使用,但当部署时,XAI可能会构成威胁,如果关于模型的解释可以通过知识融合范式反向工程,最终危及例如整体模型的差异隐私。集中式和分布式数据融合之间的区别也引发了关于隐私和可解释性的进一步挑战。集中式方法不会带来比上述更多的关注。然而,分布式融合确实出现了新问题。分布式融合可能因多种原因而被应用,主要是由于环境限制或由于安全或隐私问题。后者背景可能会带来一些危险。除了其他目标(例如计算效率)之外,模型层次的数据融合以分布式方式执行,以确保没有实际数据被共享,而是ML模型在本地数据上训练的部分被交换。这一理由是联邦学习的核心,在联邦学习中,模型在节点之间交换本地学习的信息。由于数据不离开本地设备,只需要跨分布式设备传输模型更新。这减轻了网络受限设置中的训练过程,并保证了数据隐私[416]。在使用事后可解释性技术时,节点可能会掩盖关于接收ML模型部分训练的本地上下文的敏感信息。实际上,已经表明,基于DNN的黑盒模型,如果提供输入/输出查询接口,则可以准确预测用于训练的每个单个超参数值,允许潜在的隐私相关后果[357,420,421]。这与研究表明图像模糊并不能保证隐私保护的研究相关。数据融合、隐私和模型可解释性是尚未一起分析的概念。从上述讨论中可以清楚地看出,存在未解决的关注和注意事项,需要社区在未来进行进一步研究。
6.4. 在组织中实施负责任AI原则
越来越多的组织发布AI原则,以声明他们关心避免意外的负面后果,但在如何将原则实际实施到组织中方面经验较少。查看不同组织[385]声明的原则示例,我们可以将它们分为两组:
特定于AI的原则,专注于特定于AI的方面,如可解释性、公平性和人类代理。
端到端原则,涵盖AI涉及的所有方面,包括隐私、安全和安全。
EC的可信AI指南是一个端到端原则的例子[390],而西班牙大型ICT公司Telefonica的原则更特定于AI[386]。例如,安全和安全对于任何连接的IT系统都是相关的,因此也适用于AI系统。同样,隐私也是如此,但可能确实如此,即AI系统中的隐私比一般IT系统中的隐私更重要,因为ML模型需要大量的数据,最重要的是,因为XAI工具和数据融合技术对保护受保护记录的隐私提出了新的挑战。当涉及到将AI原则实施到组织中时,重要的是操作化特定于AI的部分,并同时利用已经存在的更通用原则的过程。实际上,在许多组织中已经存在隐私、安全和安全的规范和程序。实施AI原则需要像[386]中提出的方法论,该方法论将过程分解为不同部分。这种方法论的成分应包括,至少:
AI原则(已在前面讨论过),它们设定了价值观和边界。
关于潜在问题的意识和培训,无论是技术还是非技术。
问卷调查,迫使人们思考AI系统的某些影响(影响解释)。该问卷调查应提供关于如果检测到某些不期望的影响的具体指导。
帮助回答一些问题并帮助缓解任何识别出的问题的工具。XAI工具和公平性工具属于这一类别,以及其他最近的提议,如模型卡片[426]。
治理模型,分配责任和问责(责任解释)。治理有两种哲学:1)基于委员会审查和批准AI开发,以及2)基于员工的自我责任。虽然两者都是可能的,但鉴于敏捷性是数字世界成功的关键,似乎更明智的是专注于意识和员工责任,并仅在有具体但重要的问题时使用委员会。
从上述阐述中可以清楚地看出,实施负责任AI原则的公司应该在两个要求之间取得平衡:1)为实施这些原则而需要在流程中强制执行的重大文化和组织变革,这些流程具有AI功能;以及2)实施这些原则与公司已有的IT资产、政策和资源的可行性和合规性。正是在围绕负责任AI原则和价值观的公司意识逐渐提升的过程中,我们设想XAI将找到其位置并产生巨大影响。
结论和展望
本综述围绕可解释人工智能(XAI)展开,最近被认为在现实生活中采用ML方法的迫切需求。我们的研究通过首先澄清模型可解释性背后的不同概念,以及展示推动寻找更可解释的ML方法的不同动机,来阐述这一主题。这些概念性评论为对最近文献的系统审查奠定了坚实的基础,这些文献从两个不同的角度处理可解释性:1)具有一定程度透明度的ML模型,因此在某种程度上可以自行解释;以及2)事后XAI技术,旨在使ML模型更具可解释性。这一文献分析产生了一个全球性的分类,将社区报告的不同提议归类于统一标准下。鉴于处理深度学习模型可解释性的贡献的普遍性,我们深入检查了处理这一系列模型的文献,产生了与深度学习模型可解释性可以实现的具体领域更紧密相关的替代分类。我们的讨论超出了迄今为止在XAI领域所做的,朝着负责任AI的概念迈进,这是一个范式,它要求在实际实施AI模型时满足一系列AI原则,包括公平性、透明度和隐私。我们还讨论了在数据融合背景下采用XAI技术的影响,揭示了XAI可能危及融合过程中涉及的受保护数据的隐私的潜力。XAI在公平性方面的影响也得到了详细讨论。将XAI视为确保负责任AI的上述原则的核心概念的愿景在图14中以图形方式总结。我们对XAI未来的反思,贯穿于本工作中进行的讨论,一致认为需要适当理解XAI技术的潜力和陷阱。我们的观点是,模型可解释性必须与数据隐私、模型保密性、公平性和可问责性相关的要求和约束一起解决。如果所有这些AI原则联合研究,全球组织和机构中AI方法的负责任实施和使用将得到保证。