(论文翻译)EXTREMELY SIMPLE ACTIVATION SHAPING FOR OUTOF-DISTRIBUTION DETECTION(ICLR2023)

EXTREMELY SIMPLE ACTIVATION SHAPING FOR OUTOF-DISTRIBUTION DETECTION(ICLR2023)


实验部分详见原文,文章为原文翻译,如有错误请参照原文

ABSTRACT

  • 背景:机器学习模型的训练和部署之间的分离意味着并不是部署中遇到的所有场景都可以在训练期间预测到,因此仅仅依赖于训练中的进步有其局限性
  • 挑战
    • Out-of-distribution (OOD) 检测是对模型处理未知情况的能力进行压力测试的一个重要领域:Do models know when they don’t know?
    • 现有的OOD检测方法要么需要额外的训练步骤、额外的数据,要么对训练好的网络进行重大修改
  • 方法
    • 相比之下,在这项工作中,我们提出了一种非常简单的、post-hocactivation shaping method,ASH,其中样本在后期层的大部分激活(例如90%)被去除,其余部分(例如10%)被简化或轻微调整
    • shaping在推理时应用,不需要从训练数据中计算任何统计信息
  • 贡献

1.INTRODUCTION

在这里插入图片描述

Figure 1: Overview of the Activation Shaping (ASH) method. ASH is applied to the forward path of an input sample. Black arrows indicate the regular forward path. Red dashed arrows indicate our proposed ASH path, adding one additional step to remove a large portion of the feature representation and simplify or lightly adjust the remaining, before routing back to the rest of the network. Note: we default to using the energy score calculated from logits for OOD detection, but the softmax score can also be used for OOD, and we have tested that in our ablation study.

1st Para:

  • 机器学习通过迭代工作
  • 我们开发了越来越好的训练技术(在闭环验证环境中验证),一旦模型被训练,我们就会观察到部署中的问题、缺点、陷阱和不一致,这促使我们回去修改或改进训练过程
  • 然而,随着我们进入一个大模型的时代,最近的进展在很大程度上是由scaling的进步推动的,包括模型的大小、数据、物理硬件以及研究人员和工程师团队
  • 因此,对通常的训练部署循环进行多次迭代变得越来越困难,不需要修改训练就能提高模型能力的post-hoc方法是非常受欢迎的
  • 零样本学习、即插即用控制以及特征后处理等方法利用临时操作使通用和灵活的预训练模型更适应下游应用

2st Para:

  • 分布外(OOD)泛化失败是部署中经常观察到的缺陷之一
  • OOD检测的核心问题是"Do models know when they don’t know?"
  • 理想情况下,经过充分训练的神经网络(NNs)应该对训练分布之外的数据产生低置信度或高不确定性的度量
  • 然而,这并不总是这样
  • 区分OOD和in-distribution (ID)样本是一项比预期困难得多的任务
  • 许多人将OOD检测的失败归因于神经网络校准不佳,这导致了一系列令人印象深刻的工作来改进校准措施
  • 在这些努力下,OOD检测已经取得了巨大的进步,但是仍然有空间建立一个帕累托边界([Pareto frontier](# 1.帕累托边界(Pareto frontier))),提供最好的OOD检测和ID准确性权衡,理想情况下,OOD检测不应该降低ID任务的性能,也不应该需要一个繁琐的并行设置来分别处理ID任务和OOD检测

3st Para:

  • 最近的一项工作 ReAct观察到特定 (倒数第二层)的单元激活模式在 ID 和 OOD 数据之间显示出显著差异,因此建议在上限处对激活模式进行修正,换句话说,截断该层的输出到一个上限显著改善了ID和OOD数据的区分(将该层的输出值限制在一个上限之内,能够大幅度提高区分ID数据和OOD数据的能力)
  • 一项单独的工作,DICE在某一层采用了权重稀疏化,与 ReAct 结合使用时,在一些基准测试中实现了最先进的 OOD 检测
  • 同样,在本文中,我们假设不知道训练或测试数据分布,通过对预训练网络进行轻微修改来进行OOD检测
  • 我们展示了一种意想不到的有效的、最新的、最先进的OOD检测可以通过对输入表示进行post hoc、一次性的简化来实现

4st Para:

  • 极其简单的Activation SHaping(ASH)方法接受输入的特征表示(通常来自后一层)并执行两个阶段的操作:1)基于简单的top-K标准删除大部分(例如90%)的激活,2)通过缩放它们来调整剩余的(例如10%)激活值,或者简单地为它们分配一个常量值
  • 然后将得到的简化表示填充到网络的其余部分,像往常一样为分类和OOD检测生成分数,Figure 1 说明了这个过程

5st Para:

  • ASH与ReAct (Sun et al., 2021) 相似在post-training,在网络中间的激活空间中采取一次性的方式,以及在使用能量评分进行OOD检测方面类似
  • 与DICE (Sun & Li, 2022) 类似,ASH执行稀疏化操作
  • 然而,与ReAct相比,我们提供了许多优势:没有从训练数据计算全局阈值,因此完全是post hoc;在神经层位置方面更灵活(可以在网络的不同层上应用,而不局限于特定的位置);全面提高OOD检测性能;更好地保持ID数据的准确性,从而建立更好的帕累托边界
  • 对于DICE,我们没有对训练后的网络做任何修改,只在激活空间中操作(ASH和DICE的更多区别在附录第K节)
  • 此外,我们的方法是即插即用的,可以与其他现有的方法结合使用,包括ReAct(结果如表5所示)
  • 在本文的其余部分,我们通过以下贡献来开发和评估ASH:
    • 我们提出了一种非常简单的、事后的、一次性的激活重塑方法,ASH,作为原始任务和OOD检测的统一框架(Figure 1)
    • 当对包括3个ID数据集和10个OOD数据集在内的一套视觉任务进行评估时(表1),ASH立即全面提高了OOD检测性能,建立了一个新的技术状态(SOTA),同时提供了最优的ID-OOD权衡,提供了一个新的帕累托边界(Figure 2)
    • 我们对不同的设计选择进行了广泛的消融研究,包括ASH的放置,修剪强度和成型处理,同时展示了ASH如何能够很容易与其他方法结合,显示出这种简单操作的意想不到的有效性和灵活性(Sec. 5)

2.THE OUT-OF-DISTRIBUTION DETECTION SETUP

在这里插入图片描述

Figure 2: ID-OOD tradeoff on ImageNet. Plotted are the average OOD detection rate (AUROC; averaged across 4 OOD datasets - iNaturalist, SUN, Places365, Textures) vs ID classification accuracy (Top-1 accuracy in percentage on ImageNet validation set) of all OOD detection methods and their variants used in this paper. Baseline methods “E”, “S” and “O” lie on the upper bound of ID accuracy (indicated by the dotted gray line) since it makes no modification of the network or the features. “R”, “D” and “D+R” improve on the OOD metric, but come with an ID accuracy drop. ASH (dots connected with dashed lines; smaller dots indicate lower pruning level) offers the best trade-off and form a Pareto front.

3.ACTIVATION SHAPING FOR OOD DETECTION

在这里插入图片描述

Figure 3: Accuracy degradation across pruning percentage. All three versions of ASH are applied to the penultimate layer of a ResNet-50 pretrained on ImageNet. At test time the input samples from the ImageNet validation set are being processed with ASH, and the Top-1 accuracy is reported across a range of pruning strengths. ASH-P and ASH-S have the exact same effect on ID accuracy, as expected. ASH-B fails when pruning percentage is low, as the majority of the feature map would be converted to a constant value. The right plot is a zoomed-in version (on y axis) of the left.

1st Para:

  • 经过训练的网络将原始输入数据(例如RGB像素值)转换为有用的表示(例如空间激活的堆)
  • 我们认为,现代的、过度参数化的深度神经网络产生的表征对于手头的任务来说是过度的,因此可以在不影响原始性能(例如分类精度)的情况下大大简化,同时在其他任务(例如OOD检测)上获得惊人的增益
  • 这样的假设是通过activation shaping ASH来检验的,该方法用以下方面简化了输入的特征表示:
    • 删除通过整个表示的百分之 p p p 获得的激活值 t t t,所有小于 t t t​ 的值化为0
    • 对于未剪枝的激活值,应用以下策略之一:
      • ASH-P(算法1):不做任何事情,我们所需要的就是修剪,这被用来作为baseline,以突出以下两种策略的收益
      • ASH-B(算法2):将它们全部赋值为正常数,这样整个表示就变成了二进制(使得整个输入表示变成二进制(只有0和1))
      • ASH-S(算法3):将它们的值按剪枝前后激活值之和计算的比例放大或缩小

2st Para:

  • ASH动态地应用于中间层的任何输入样本的特征表示,之后它继续沿着网络其余部分的前向路径前进,如Figure 1
  • 它的输出——由简化的表示生成——然后用于原始任务(例如:分类),或者,在OOD检测的情况下,获得一个分数,然后应用阈值机制来区分ID和OOD样本
  • 因此,ASH是原始任务和OOD检测的统一框架,不需要任何额外的计算

3st Para: Placement of ASH

  • 我们可以在整个网络的不同位置应用ASH,性能会有所不同
  • 本文显示的主要结果是在最后一个平均池化层之后应用ASH,用于ImageNet实验,其中ResNet50的特征图大小为2048 × 1 × 1, MobileNetV2的特征图大小为1280 × 1 × 1
  • 对于使用DenseNet-101进行的CIFAR实验,我们在倒数第二层之后应用ASH,其中特征大小为342 × 1 × 1
  • 其他ASH位置的消融研究包括在第5节和附录的第A节

4st Para: The p p p parameter

  • ASH算法只有一个参数 p p p​:剪枝百分比
  • 在实验中,我们将 p p p 值从60变化到90,并观察到相对稳定的性能(Figure 2)
  • 在研究其对ID精度退化的影响时,我们涵盖了从0到100的整个范围(Figure 3)
  • SOTA的性能由高得惊人的 p p p​ 值决定
  • 对于ImageNet,性能最好的ASH版本是 p p p = 65的ASH-B和 p p p = 90的ASH-S
  • 对于CIFAR-10和在CIFAR-100中,性能最好的ASH版本是ASH-S, p p p = 95和p = 90,相比于,ASH-B分别为 p p p = 95和 p p p = 85
  • 有关参数选择的详细信息,请参见附录中的F节

4.RESULTS

5.ABLATION STUDIES

6.RELATED WORK

7.CONCLUSION

  • 在本文中,我们提出了ASH,这是一种非常简单的、事后的、即时的、即插即用的激活整形方法,应用于推理输入
  • ASH的工作原理是去除输入样本激活的大部分,并对其余部分进行轻微调整
  • 当与能量评分相结合时,它在中等和大规模图像分类基准上都优于所有当代的OOD检测方法
  • 它还与现有方法兼容,并为其提供了好处
  • 在3个ID数据集和10个OOD数据集上进行了广泛的实验设置,并对性能进行了评估4个指标,全面证明了ASH的有效性:在OOD检测上达到SOTA,同时在OOD检测和ID分类准确性之间提供最佳权衡

DISCUSSION

1.帕累托边界(Pareto frontier

Pareto前沿(Pareto frontier),也称为帕累托边界或帕累托最优前沿,是多目标优化问题中的一个概念。它代表了一组不可被其他解支配的解决方案。这些解决方案之间存在这样一种关系:在不妥协其他目标的情况下,无法进一步改善其中一个目标。换句话说,如果一个解决方案在一个或多个目标上优于另一个解决方案,但在其他目标上不逊色,则该解决方案被称为“帕累托最优”的。

在图形上,Pareto前沿通常被表示为目标空间中的一条曲线或一个面,其中每个点都代表一个帕累托最优解。具体来说:

  • 多目标优化问题:涉及优化两个或多个冲突的目标函数。
  • 帕累托最优解:任何一个解,如果试图在一个目标上进一步优化,会导致至少一个其他目标变得更差,则该解是帕累托最优的。
  • 帕累托前沿:所有帕累托最优解的集合,表示为一个连续的前沿。

例如,在产品设计中,可能需要同时优化成本和性能。某些设计可能在性能上稍微逊色但成本更低,而另一些设计可能在成本上稍微逊色但性能更好。Pareto前沿帮助决策者了解这些权衡,并选择最符合他们需求的解决方案。

其他目标变得更差,则该解是帕累托最优的。

  • 帕累托前沿:所有帕累托最优解的集合,表示为一个连续的前沿。

例如,在产品设计中,可能需要同时优化成本和性能。某些设计可能在性能上稍微逊色但成本更低,而另一些设计可能在成本上稍微逊色但性能更好。Pareto前沿帮助决策者了解这些权衡,并选择最符合他们需求的解决方案。

这里指的是需要找到一组最优解,在这些解中,任何一个目标的改善(例如OOD检测的准确性)都不会导致另一个目标(例如ID准确性)的显著恶化

  • 20
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值