【CVPR2024教程】推理的鲁棒性:走向可解释性、不确定性和可干预性

a9a4a7dfd955066c80f4ab5bb5f34fd2.png

来源:专知
本文约2000字,建议阅读5分钟
在本教程中,我们提供了一种以人为中心的方法来理解神经网络的鲁棒性,使AI能够在社会中正常运行。

21b80d75904bb0285168954b011f69b2.jpeg

神经网络提供了具有普遍适用性和任务独立性的表示空间,这些表示空间在图像理解应用中得到了广泛应用。图像数据中特征交互的复杂语义已被分解为一组非线性函数、卷积参数、注意力机制以及多模态输入等。这些操作的复杂性引入了神经网络架构中的多种漏洞,包括对抗样本、自信校准问题和灾难性遗忘等。鉴于人工智能有望引领第四次工业革命,理解和克服这些漏洞至关重要。实现这一目标需要创建驱动AI系统的鲁棒神经网络。然而,定义鲁棒性并非易事。简单的对噪声和扰动不变性的测量在现实环境中并不适用。在本教程中,我们提供了一种以人为中心的方法来理解神经网络的鲁棒性,使AI能够在社会中正常运行。因此,我们提出以下几点

  1. 所有神经网络必须向人类提供上下文相关的解释。

  2. 神经网络必须知道它们不知道的内容和范围。

  3. 神经网络必须允许人在决策阶段进行干预。

这三点要求鲁棒的神经网络具有可解释性、具备不确定性量化,并且能够被干预。

我们提供了一个基于概率的事后分析,以实现可解释性、不确定性和可干预性。事后分析意味着决策已经做出。一个简单的事后上下文相关解释的例子如图1所示。对于一个训练良好的神经网络,常规解释回答了“为什么是琵鹭?”的问题,通过突出鸟的身体。然而,一个更相关的问题可能是“为什么是琵鹭,而不是火烈鸟?”这样的提问需要提问者了解火烈鸟的特征。如果网络显示区别在于没有S形的颈部,那么提问者会对所提供的上下文回答感到满意。上下文解释不仅建立信任,还评估神经网络并解释其决策。在更大的背景下,可解释性的目标必须是满足各种水平的专家的需求,包括研究人员、工程师、政策制定者和普通用户。在本教程中,我们详细介绍了一种基于梯度的方法,能够提供上述所有解释而无需重新训练。一旦神经网络被训练,它就像一个知识库,不同类型的梯度可以用来遍历对抗性、对比性、解释性、反事实表示空间。除了解释外,我们还展示了这些梯度在定义不确定性和可干预性方面的实用性。我们将讨论多种图像理解和鲁棒性应用,包括异常检测、新奇检测、对抗性样本检测、分布外图像检测、图像质量评估和噪声识别实验等。在本教程中,我们将审视鲁棒性作为一种以人为中心的衡量大规模神经网络实用性的方法的类型、视觉含义和解释。

1f8d05fc4668bb6ad8dfe28af6e4bcd7.png

教程大纲

本教程由四个主要部分组成:

第一部分:神经网络中的推理讨论一些关于使用分布外(OOD)数据训练神经网络的近期令人惊讶的结果,其结论是,在大数据环境中何时及如何使用OOD数据并不总是明确的。我们将以此作为课程材料的动机。

第二部分:推理中的可解释性介绍每一种可解释性、不确定性和可干预性的基本数学框架。

第三部分:推理中的可解释性和不确定性详细讨论可解释性和不确定性。

第四部分:推理中的可干预性专门讨论可干预性。

第五部分:结论与未来方向总结和探讨未来的发展方向。

每部分的具体内容和讲解者如下所示。

参考文献:

[1] AlRegib, Ghassan, and Mohit Prabhushankar. “Explanatory Paradigms in Neural Networks: Towards relevant and contextual explanations.” IEEE Signal Processing Magazine 39.4 (2022): 59-72.  

[2] M. Prabhushankar, and G. AlRegib, “Introspective Learning : A Two-Stage Approach for Inference in Neural Networks,” in Advances in Neural Information Processing Systems (NeurIPS), New Orleans, LA,, Nov. 29 – Dec. 1 2022.  

[3] Kwon, G., Prabhushankar, M., Temel, D., & AlRegib, G. (2020). Backpropagated gradient representations for anomaly detection. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XXI 16,  Springer International Publishing.  

[4] M. Prabhushankar and G. AlRegib, “Extracting Causal Visual Features for Limited Label Classification,” IEEE International Conference on Image Processing (ICIP), Anchorage, AK, Sept 2021.  

[5] Selvaraju, Ramprasaath R., et al. “Grad-cam: Visual explanations from deep networks via gradient-based localization.” Proceedings of the IEEE international conference on computer vision. 2017.  

[6] Prabhushankar, M., Kwon, G., Temel, D., & AlRegib, G. (2020, October). Contrastive explanations in neural networks. In 2020 IEEE International Conference on Image Processing (ICIP) (pp. 3289-3293). IEEE.  

[7] G. Kwon, M. Prabhushankar, D. Temel, and G. AlRegib, “Novelty Detection Through Model-Based Characterization of Neural Networks,” in IEEE International Conference on Image Processing (ICIP), Abu Dhabi, United Arab Emirates, Oct. 2020.  

[8] J. Lee and G. AlRegib, “Gradients as a Measure of Uncertainty in Neural Networks,” in IEEE International Conference on Image Processing (ICIP), Abu Dhabi, United Arab Emirates, Oct. 2020.  

[9] M. Prabhushankar*, G. Kwon*, D. Temel and G. AIRegib, “Distorted Representation Space Characterization Through Backpropagated Gradients,” 2019 IEEE International Conference on Image Processing (ICIP), Taipei, Taiwan, 2019, pp. 2651-2655. (* : equal contribution, Best Paper Award (top 0.1%))  

[10] J. Lee, M. Prabhushankar, and G. AlRegib, “Gradient-Based Adversarial and Out-of-Distribution Detection,” in International Conference on Machine Learning (ICML) Workshop on New Frontiers in Adversarial Machine Learning, Baltimore, MD, Jul., 2022.

dce633b7c033fd72a348b34b0a26f527.jpeg

547d4702949bae22947fa3711af2695e.jpeg

5ed1bb216ec15d280618390576251c5a.jpeg

c11c8d78e5be8b955b420fa4c116a009.jpeg

f62535af24cb056ccbe1a3de40f2a7be.jpeg

8cdae067ea2458565744a9460a48821b.jpeg

e454be57a0b26122a1307e572469dde9.jpeg

ea9e4a7de010fe94f7f1b3feee14e3c4.jpeg

c49f50e99a7f943752ed565f663f464e.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1 目标检测的定义 目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具有挑战的问题。 目标检测任务可分为两个关键的子任务,目标定位和目标分类。首先检测图像中目标的位置(目标定位),然后给出每个目标的具体类别(目标分类)。输出结果是一个边界框(称为Bounding-box,一般形式为(x1,y1,x2,y2),表示框的左上角坐标和右下角坐标),一个置信度分数(Confidence Score),表示边界框中是否包含检测对象的概率和各个类别的概率(首先得到类别概率,经过Softmax可得到类别标签)。 1.1 Two stage方法 目前主流的基于深度学习的目标检测算法主要分为两类:Two stage和One stage。Two stage方法将目标检测过程分为两个阶段。第一个阶段是 Region Proposal 生成阶段,主要用于生成潜在的目标候选框(Bounding-box proposals)。这个阶段通常使用卷积神经网络(CNN)从输入图像中提取特征,然后通过一些技巧(如选择搜索)来生成候选框。第二个阶段是分类和位置精修阶段,将第一个阶段生成的候选框输入到另一个 CNN 中进行分类,并根据分类结果对候选框的位置进行微调。Two stage 方法的优点是准确度较高,缺点是速度相对较慢。 常见Tow stage目标检测算法有:R-CNN系列、SPPNet等。 1.2 One stage方法 One stage方法直接利用模型提取特征值,并利用这些特征值进行目标的分类和定位,不需要生成Region Proposal。这种方法的优点是速度快,因为省略了Region Proposal生成的过程。One stage方法的缺点是准确度相对较低,因为它没有对潜在的目标进行预先筛选。 常见的One stage目标检测算法有:YOLO系列、SSD系列和RetinaNet等。 2 常见名词解释 2.1 NMS(Non-Maximum Suppression) 目标检测模型一般会给出目标的多个预测边界框,对成百上千的预测边界框都进行调整肯定是不可行的,需要对这些结果先进行一个大体的挑选。NMS称为非极大值抑制,作用是从众多预测边界框中挑选出最具代表的结果,这样可以加快算法效率,其主要流程如下: 设定一个置信度分数阈值,将置信度分数小于阈值的直接过滤掉 将剩下框的置信度分数从大到小排序,选中值最大的框 遍历其余的框,如果和当前框的重叠面积(IOU)大于设定的阈值(一般为0.7),就将框删除(超过设定阈值,认为两个框的里面的物体属于同一个类别) 从未处理的框中继续选一个置信度分数最大的,重复上述过程,直至所有框处理完毕 2.2 IoU(Intersection over Union) 定义了两个边界框的重叠度,当预测边界框和真实边界框差异很小时,或重叠度很大时,表示模型产生的预测边界框很准确。边界框A、B的IOU计算公式为: 2.3 mAP(mean Average Precision) mAP即均值平均精度,是评估目标检测模型效果的最重要指标,这个值介于0到1之间,且越大越好。mAP是AP(Average Precision)的平均值,那么首先需要了解AP的概念。想要了解AP的概念,还要首先了解目标检测中Precision和Recall的概念。 首先我们设置置信度阈值(Confidence Threshold)和IoU阈值(一般设置为0.5,也会衡量0.75以及0.9的mAP值): 当一个预测边界框被认为是True Positive(TP)时,需要同时满足下面三个条件: Confidence Score > Confidence Threshold 预测类别匹配真实值(Ground truth)的类别 预测边界框的IoU大于设定的IoU阈值 不满足条件2或条件3,则认为是False Positive(FP)。当对应同一个真值有多个预测结果时,只有最高置信度分数的预测结果被认为是True Positive,其余被认为是False Positive。 Precision和Recall的概念如下图所示: Precision表示TP与预测边界框数量的比值 Recall表示TP与真实边界框数量的比值 改变不同的置信度阈值,可以获得多组Precision和Recall,Recall放X轴,Precision放Y轴,可以画出一个Precision-Recall曲线,简称P-R
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值