【论文阅读】AI for Explaining Decisions in Multi-Agent Environments

摘要

当AI系统的目标已知时,解释对于人类理解和接受决策是必要的。在多智能体环境中,人类不知道系统的目标时,解释可能取决于其他智能体的偏好,因此解释更加重要。

在这种情况下,解释应该旨在增加用户满意度;解释应该考虑系统的决策、用户和其他智能体的偏好、环境设置和包括公平性、嫉妒1和隐私的属性。

提高用户满意度的解释非常具有挑战性,因此我们提出了一个新的研究方向:多智能体环境下的可解释决策(xMASE, Explainable decisions in Multi-Agent Environments)。

我们回顾了现有技术水平,并讨论了朝着生成增加用户满意度的AI系统决策解释的有效方法和算法的研究方向。

引言

AI系统需要在多智能体环境中做出决策,这些智能体包括人和机器人,它们可能有不同的偏好。系统应该在做出决策时平衡这些偏好。例子:把教师分配给班级的调度算法,拼车系统。

提供关于系统决策的解释可以增加人们的满意度,并维持AI系统的可接受性。

最近,可解释的人工智能(XAI)受到广泛研究,主要关注于向用户解释AI系统的决策。

本文提出了一个新的研究方向:在多智能体环境中提供可解释的决策。本文认为在多智能体环境中,提供解释更为重要,以增加用户的满意度,考虑公平性、嫉妒和隐私等属性。因此,本文提出了xMASE的研究方向。

案例:
在拼车场景,人工智能系统可能会建议客户Bob与Alice共乘一辆出租车,全程需要30分钟。出租车会先让爱丽丝下车,鲍勃要花25美元。鲍勃可能会因为出租车先让爱丽丝下车而生气。可能的解释包括:

  • Alice的目的地在Bob的路线上,只会给Bob的行程增加5分钟。
  • Alice将支付30美元
  • 先送Bob会使Alice的行程增加15分钟
  • Alice早上8点上课,如果先送Bob的话,她就会迟到。
  • 和别人共乘一辆出租车将为Bob节省10美元。

挑战

  • 识别导致决策的技术原因
  • 涉及的智能体的偏好
  • 从其他智能体的偏好中透露什么,以增加用户的满意度
  • 考虑其他智能体的隐私
  • 这些偏好如何导致最终决策
  • 公平性
  • 个性化解释
  • 最大化用户满意度,同时考虑系统层面的社会福利
  • 收集关于人们在不同情境下对于各种类型解释的决策满意度的数据
  • 评估必须涉及人类参与多智能体环境

大多数提供AI系统解释的算法采用工程方法,而不涉及与人进行实验。Papenmeier等人(2019)的研究表明,这些解释的存在并没有增加受试者的自我报告信任。Miller(2018)认为,解释已在心理学中进行了广泛研究,设计AI系统解释时应该利用这些研究结果。他的主要观点之一是解释应该对上下文敏感。我们完全同意在XAI和xMASE中生成解释时应考虑上下文,但在多智能体系统(MASs, multi-agent systems)中,上下文包括其他智能体的偏好和决策的公平性。

案例:
考虑将教师分配到班级的调度算法。假设鲍勃和爱丽丝分别在特定的一天在特定的教室上课;每个人需要教4个小时(但他们不能并行教学)。鲍勃喜欢在上午10点到下午3点之间授课,但也可以在上午9点到10点和下午3点到4点授课。他不能在早上8点到9点之间授课(这是一个很强的限制),也不能在下午4点之后授课。爱丽丝更喜欢在上午10点到下午2点之间教书,她有一个严格的限制,不允许她在下午2点之后教书,但她可以在上午10点到10点之间教书。假设算法将Bob分配到下午12点到下午4点,Alice分配到上午8点到下午12点(见图1)。如果Alice的分配违反了她的软约束,但没有违反硬约束,那么系统应该提供哪些解释?对于违反教师硬性约束的分配,系统应该给出哪些解释?假设爱丽丝和鲍勃是朋友。系统是否应该告诉Bob他在下午3点到4点之间上课(违反了他的软约束),因为Alice在这个时候有很强的约束?如果爱丽丝和鲍勃是新来的,彼此不认识怎么办?应该提供这样的解释吗?或者,仅仅对相关信息的图形化描述(如图1所示)是否足以作为解释?

研究问题

  • 生成解释的算法:实时生成解释是非常具有挑战性的。需要决定是否呈现解释,何时以及如何呈现。

  • 用户建模以提高满意度:除了了解用户偏好外,还需要了解他们对不同解释的态度,以预测解释对用户满意度的影响。

  • 交互式解释:通过AI系统和用户之间的对话提供解释。用户可以通过提问和表达关注点来指导系统生成好的解释。然而,对于xMASE来说,与用户进行有意义的对话会增加难度。

  • 理解系统的决策过程:MAS决策依赖于多个参数和多个智能体,这使得xMASE问题比XAI更具挑战性。对于给定用户来说,只有一部分与决策相关的技术原因是重要的;随着智能体数量的增加,不相关信息也会增加,很难确定相关部分。其他可能增加用户满意度的解释涉及环境。如果AI系统基于对环境的某些知识做出决策,但这些知识对用户不可见,向用户呈现这些信息可能是有用的。

  • 长期满意度:当AI系统与同一用户反复交互时,应考虑长期满意度。

  • 道德和隐私:在多智能体系统中,需要考虑道德和隐私问题,包括解释的真实性隐瞒信息的道德问题,以及提供解释时向一个智能体透露另一个智能体的信息和偏好时的隐私问题。

  • 开源代码和公共数据集:帮助研究人员开发和评估解释算法的开源代码和公共数据集可以提升xMASE领域的研究。同时,收集标记数据集也非常有用。

我们将更详细地讨论其中的三个方向。

研究现状

近年来,人们对设计技术进行了大量研究,以使人工智能方法对开发人员和用户具有可解释性、可解释性和透明度(Carvalho, Pereira, and Cardoso 2019)。XAI方法的基本思想是尝试解释黑盒模型行为,而xMASE甚至在使用传统白盒优化的环境中也是需要的。

XAI方法包括:

  • 针对贝叶斯预测模型的局部模型无关解释(Peltola 2018)
  • 针对卷积神经网络(Mishra Sturm and Dixon 2017)
  • 针对卷积神经网络的可视化技术(Grad-CAM)(Selvaraju et al. 2017)
  • 通过可解释模型近似的黑箱解释(Lakkaraju et al. 2017)
  • 使用明确的符号表示的混合模型结合黑盒技术(Choi, Wang, and Darwiche 2019)

XAI也扩展到了古典领域之外。

  • Fox(2017)介绍了可解释的规划系统。
  • Ludwig(2018)和Čyras(2019)研究了调度系统对任务的可解释性。

我们注意到,机器任务的规划和调度都不是我们定义的多代理环境,因为它们实际上由单个代理组成,因此不属于xMASE。

  • 深度强化学习的可解释性也进行了研究(Lee 2019)

所有这些技术都是为XAI开发的,它们可以作为xMASE的输入,xMASE需要为任何给定的场景和每个代理选择合适的解释。此外,在许多XAI方法中,由于缺乏标准(Pedreschi, Giannotti等人,2019),解释的社会性质被忽视(Miller, 2018),并且解释没有与人类一起评估。所有这些评估标准在xMASE中都是必不可少的。

一些研究提出了基于人类的XAI评估方法

  • Lakkaraju等人(2019)提出了一种新的解释形式,旨在帮助最终用户(例如,法官、医生等决策者),以便更深入地了解模型的行为。
  • Doshi-Velez和Kim(2018)声称,评估可解释性的研究人员应该区分有人类、被评估领域的专家和没有人类受试者的正式评估。
  • Wolf等人(2019)指出了解释的需求,并指出这些需求应该受到用户、应用程序和部署上下文的影响。他们声称,要将XAI方法集成到实际应用程序中,需要三种不同类型的解释。首先,应用程序应该解释它的行为;其次,应该解释用户与应用程序交互的影响,最后,用户寻求描述应用程序输出如何集成到整个过程中的解释。这些想法也是成功的xMASE的一些基本组成部分。

xMASE的独特之处在于,应该选择能够增加用户满意度的解释方式。本文探讨了在多智能体系统中提供解释对用户满意度的影响。先前的研究表明,解释对用户满意度/接受度有影响。

  • Herlocker等人(2000)表明,为自动协同过滤(ACF)推荐提供解释可以提高ACF系统的接受度。
  • 与我们更相关的是(Kleinerman, Rosenfeld, and Kraus 2018)表明解释在互惠推荐系统(例如约会)中也是有益的,其中在提出建议时考虑到其他代理的偏好,并且可能在生成解释时考虑到其他代理的偏好。在这种情况下,相互解释是可取的。
  • Putnam和Conati(2019)对智能辅导系统中解释的好处进行了一项用户研究。他们的结果表明,人们对需要解释的态度是积极的,但并不意味着他们这一代人有任何自动系统。
  • Levinger等人(2018)研究了在多智能体系统中最大化人类满意度,但没有使用任何形式的解释。他们提出了一种优化算法,根据学习模型最大化人类的整体满意度。他们还表明,当以人类满意度最大化为目标时,学习准确的满意度模型比改进优化算法更重要。

xMASE的研究方向

我们将更详细地讨论其中的三个方向。

生成提高满意度的解释

高效的实时解释算法非常重要。我们提出了一个两阶段的过程:首先创建一组可能的解释,然后选择最适合特定用户和设置的解释。这两个阶段可以使用机器学习或其他基于真实用户输入的决策过程来完成。

如果使用神经网络进行AI决策,可以使用XAI方法识别导致决策的重要特征。需要确定哪些特征与特定用户相关,并识别相关智能体的偏好和涉及公平等重要概念的陈述。使用这些特征、偏好和概念,可以生成多个解释,并通过网络估计每个解释对用户满意度的影响。最后,将选择的子集转换为文本消息并发送给用户。可以在最后一步中使用个性化。

如果人工智能决策不是使用机器学习方法完成的,而是使用推断,并且没有可用的数据,那么研究用于解释推断的方法如何用于xMASE将是很有趣的。

如果AI决策者是一个调度工具,它可以提供一组约束条件,以便生成建议的日程安排。在xMASE中,需要确定相关的约束条件,并概括与其他代理的偏好以及由公平性等概念驱动的一般系统约束的陈述。可以使用用户满意度模型(例如神经网络)来选择最佳的约束条件和概括陈述。

自动生成图形解释是一个有趣的研究方向,可以对大量信息进行简洁概括。

提高满意度的用户建模

用户建模和偏好引导有很多方法,但我们还没有找到关于解释和提高满意度的偏好引导的研究。一个主要的挑战是用户对解释的满意度很大程度上取决于实际决策、其他代理、环境和用户的信念。因此,收集关于解释对用户满意度的影响的数据必须在特定决策和环境设置的背景下进行,这使得数据收集非常具有挑战性

数据收集可以通过虚构决策、解释和MAS环境设置或实际模拟来完成。用户可以表达他们对解释的喜好程度,以建立用户对解释的偏好的广义模型。但是,要确定增加用户满意度的解释,需要让用户表达对不同解释变体和没有解释的给定决策的满意度水平,并尝试建立衡量用户对决策满意度的模型。

挑战之一是确定解释的特征。除了考虑解释作为文本的特征外,我们认为还需要找到与用户偏好和环境相关的额外特征。

当人工智能系统与相同的用户重复交互时,可能会出现有趣的研究问题。偏好和满意度模型的学习阶段可以个性化,但更重要的是,产生的解释应该考虑到长期满意度。此外,我们建议在与用户交互时考虑使用强化学习以引导的方式改进用户的长期模型。

交互解释

人类的口头解释是互动的,交互式解释可以视为辩论对话,需要不断估计用户的信念和情感,预测解释语句对用户信念的影响。在xMASE中,需要将交互建模为POMDP,以处理用户信念的不确定性。目前还没有开发出交互式解释系统。

对于一般对话系统或交互式学习对话,可以考虑其他技术。开放性问题是如何利用AI系统决策的特征来形成可能的回应,以及如何设计用户偏好和满意度的模型来生成正确的回应。无论采用何种技术,任何开发的方法都应通过人类实验进行评估,而这在可解释人工智能中仍然常常缺失。

结论

本文介绍了xMASE挑战,旨在解释基于人工智能的多智能体系统,以增加用户满意度。这个挑战对于共享出行等社会技术应用的成功和可接受性非常重要。

xMASE可以建立在XAI的最新进展之上,但需要解决与环境中其他智能体和增加用户满意度目标相关的许多开放性问题。我们建议开发基于人工智能的技术来解决这些挑战。


  1. https://arxiv.org/pdf/2212.04574.pdf ↩︎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值