Day2 Transparency and Trust in Human-AI-InteractionThe Role of Model-Agnostic Explanations in CV DSS

Meske C, Bunde E. Transparency and Trust in Human-AI-Interaction: The Role of Model-Agnostic Explanations in Computer Vision-Based Decision Support[C]//International Conference on Human-Computer Interaction. Springer, Cham, 2020: 54-69. 是篇会议,怪不得看着这么水B 这作者还发了篇Information Systems Management 4区SCI 可解释的 可能后面会看 Explainable Artificial Intelligence: Objectives, Stakeholders, and Future Research Opportunities


摘要

主要讨论了可解释性对人工智能信任的理论影响,然后展示了XAI在健康相关环境中的使用情况。
具体就是做了LIME在CNN/MLP上 对图像数据(薄血涂片图像)中检测疟疾的应用。
实证结果表明,
i)人工智能有时会使用图像中可疑或不相关的数据特征来检测疟疾(即使正确预测)
ii)不同的深度学习模型如何解释相同的预测可能存在显著差异。(废话
结论是XAI可以支持对计算机视觉系统和一般人工智能系统的信任,特别是通过提高可理解性和可预见性。

这篇文章比较水 就不按文章走了 LIME效果都很差,在医疗诊断的专业领域解释了也很难理解,自己可以拿做反例了。主要吸收的是IT artifact 改编的人机交互角度的信任理论模型,和五个要素构成的形成性构念。总的来说 就是说了不能光提供单纯的解释 还有设计解释界面提供这五个维度的信息 才能让解释更可信。另外积累应用案例吧。

一、AI多领域应用 医疗健康

深度学习在医疗保健领域受到越来越多的关注。例如,它可以应用于医学成像领域,如放射学(胸部放射)、病理学(全玻片成像)、眼科(糖尿病-视网膜病变)、皮肤科(如皮肤状况)[5]或寄生虫检测(疟疾)[6,7]。尽管在这方面取得了突破和进展,深度学习方法的一个挑战是其“黑匣子”特征[8]。由于基于深度学习的方法如神经网络的高度复杂性,对[9]的内部过程没有内在的全面理解。受到这个问题困扰的人工智能系统通常被称为不透明的[10]。因此,在性能和可解释性之间存在权衡:当模型的性能提高时,这些方法的可解释性降低了[11]。

机器学习方法被用于预测个别癌症患者的结果,并可以帮助改善个性化医疗[22]。自闭症谱系障碍的检测[23]。检测糖尿病和预测血糖[24]。人工智能还被应用于帕金森病[25]或哮喘[26]诊断等疾病的检测和监督。此外,这种先进的分析可以用于评估患者是否按照处方服用药物或改善[27]的依从性。医疗保健环境中用于决策支持系统的人工智能可能带来的好处包括减轻专业人员的重复任务负担,能够对危急情况作出及时反应,并减少成本、时间和医疗事故[27,28]。

CV IN HEALTH发现异常视网膜眼底图像[32],皮肤病,如皮肤癌的识别[33]或在神经科学的背景下,阿尔茨海默病的检测通过医学图像分类[34]。

二、关于信任定义和信任模型

2.1 信任定义

对信任的多学科研究包括哲学、心理学、社会学、市场营销学、信息系统(is)或人机交互(HCI)等[13,14]。由于人工智能变得越来越强大,并越来越多地用于可能给人类带来严重后果的危急情况(如自动驾驶、医疗诊断),对这类系统的信任是一个重要因素。在信任研究的不同流派中,有不同的概念和定义[13]。我们使用Söllner等人[14]建立的概念,从而将信任作为一个形成的二阶构念formative second-order construct。

Trust is defined as “[…] the willingness of a party [trustor] to be vulnerable to the actions of another party [trustee] based on the expectation that the other will perform a particular action important to the trustor, irrespective of the ability to monitor or control that other party.” ([52], p. 712, cited in [14]).

信任被定义为“【…】一方【委托人】对另一方【委托人】的行为感到脆弱的意愿,基于期望另一方将执行对委托人很重要的特定行为,而不管另一方是否有能力监督或控制另一方 跟昨天那个Lee和See(2004)将信任定义为“代理(agent)通过不确定性和脆弱性帮助实现个体目标的态度 都翻译不明白 简单说就是
信任他人意味着必须承受易受对方行为伤害的风险

2.2 理论背景:信任和人机交互

这里插入图片描述
We adapt two possible roles of IT artifacts [14] and apply them to the relationship between a human user and an explanation interface (IT artifact): the explanation interface has the role of the trustee, whereas the human is the trustor. Another role for the explanation interface is the mediator role between human users, who are again the trustors, and the AI system as the trustee (visualized in Fig. 2).

解释界面可以直接被作为被信任的对象,也可以作为人类信任AI的中介。

在这里插入图片描述
根据it工件的信任概念而设计的新的信任框架。信任由IT工件的性能、过程和目的构成。我们特别感兴趣的是IT工件过程的子维度,XAI和解释界面可以对这些子维度产生影响:用户真实性、可理解性、可预测性、机密性、和数据完整性

User authenticity 用户(如医生)应该能够确保没有其他用户可以代表他们执行操作,例如,开处方。在解释界面应该提供用户真实性的验证,确保非授权用户不能进行操作。

Understandability 可理解性是一个指标,它直接聚焦于解释,是XAI的目标:让人工智能系统的结果更容易被人类[40]理解。

Predictability可预见性也是一个相关指标,在我们的例子中,可预见性旨在表明用户如何使用当前的解释来评估系统将如何处理(例如)新的和未知的数据。因此,“你为什么做那件事”或“为什么不做其他事?”不应该出现在用户面前;相反,用户应该能够通过解释或解释界面[12]自己回答这些问题。

Confidentiality 用户希望了解系统如何工作,并希望得到控制。在这里,机密性指的是关于谁有权访问数据或系统的问题。例如,可以创建一个个性化的界面,它只针对特定的用户,因此需要高度保密。

Data integrity 类似于用户真实性,因为这个方面也处理解释界面,而不是单独的解释。这是关于个人数据被处理的程度,以及对这些数据的更改应该是可追踪的。例如,在这里,相关数据也可以显示在解释界面中,这是用来进行预测的,用户可以看到并检查它,甚至可以用不同的数据进行实验。

总的来说 就是说了不能光提供单纯的解释 还有设计解释界面提供这五个维度的信息 才能让解释更可信

三、实验

这实验单纯说明了CNN好于MLP 解释也好一点 并没有和他提的信任框架和5个性质联系起来

Dropout可以作为训练深度神经网络的一种trick供选择。在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。
Dropout说的简单一点就是:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征,如图1所示。
在这里插入图片描述

图1:使用Dropout的神经网络模型
————————————————
版权声明:本文为CSDN博主「Microstrong0305」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/program_developer/article/details/80737724
As it can be seen, the MLP is a simple multi-layered neural network, while the CNN is inspired by the VGG-16 architecture, whereby we have created a slimmer version here, due to limitations of the computing infrastructure. Furthermore, we have used a batch size of 32, Rectified Linear Unit (ReLu) as activation function, Dropout for regularization, Stochastic gradient descent as optimizer, binary cross entropy as loss function, and a Sigmoid function as last layer activation. The training process would operate for 150 epochs, though we have used early stopping to monitor the validation loss, if it stopped decreasing for 10 epochs, the training was cancelled, and the best weights of the model restored and saved.

在这里插入图片描述
在这里插入图片描述
没有专业知识
在这里插入图片描述
在这里插入图片描述
没有专业知识看这种LIME解释其实是没啥j用的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值