CVPR 2023 | Reliability in Semantic Segmentation: Are We on the Right Track?

image.png

这篇文章是一个偏向于总结和反思性的文章.

最近计算机视觉由于Transformer获得了急速的发展, 虽然域内性能有着上升趋势, 但对鲁棒性或不确定性估计等特性的探索较少, 这使人们对模型可靠性方面的进步水平产生了怀疑. 现有一些工作虽然对此有所探索, 但是主要集中在分类模型. 这份工作在语义分割中开展了相关的探究, 横跨了较旧的基于ResNet的架构到较新的Transformer架构:发现了尽管最近的模型更加鲁棒, 但在不确定性估计上总体并未更可靠; 探索了可以挽救的方法, 并表明提升calibration也可以帮助其他不确定性指标, 如misclassification或OOD检测.

本文是在现代分割模型上, 在domain shift条件下, 同时关注鲁棒性和不确定性的第一份研究. 这样的研究对于理解语义分割的发展是否走在正确的方向上至关重要.

本文基于四个指标分析模型的可靠性:

  • robustness
  • calibration: 反映了模型自身预测的置信度(通常可以定义为softmax之后的最大得分)与实际预测的准确率之间的对应情况. 举例来讲(), 如果模型对某100个样本的预测均有0.8的置信度, 且100个样本中同样有80%的样本被预测正确, 我们就可以认为该置信度在0.8附近是被校正的. 扩展阅读:Medium文章.
  • misclassification detection
  • out-of-distribution(OOD)

工作动机

人类普遍存在邓宁克鲁格效应(Dunning-Kruger Effect)这样的认知偏差(cognitive bias), 即"菜鸟不知道自己是菜鸟."而深度学习模型虽然已经在不同任务上获得了良好性能, 但同样也存在过度自信(overconfident)的现象, 即即使预测错误也会具有较高的置信度. 这种效应在domain shift的情况下更加严重, 模型通常表现不佳.

domain shift情况下模型的脆弱性能(brittle performance)和过度自信(overconfidence)是现实世界中人工智能系统安全部署的两个重要且具有挑战性的问题.

本文所讨论的可靠模型应当对domain shift表现robust, 并提供良好的uncertainty estimate. 这个研究的目标是探索这样一个问题:在鲁棒性和不确定性估计方面, 最先进的语义分割模型是否有所改进?

image.png

以往的研究中对这些问题进行了一些探索:

  • 一些研究在鲁棒性和预测不确定性方面比较了最近的Transformer和CNN架构的分类模型.
  • 语义分割领域也有一些工作, 但是只关注了鲁棒性, 使用例如模糊和噪声这样的合成损坏作为domain shift.

本文则利用不同条件下采集的数据集, 考虑自然、现实场景下的domain shift, 同时从鲁棒性和不确定性两方面对分割模型进行了研究.

特定于任务的研究很重要, 因为特定于任务的架构和学习算法可能会带来不同的行为, 并且在切换到分割任务时, 为分类所做的一些观察可能不成立.

例如, 与Minderer等人在Revisiting the Calibration of Modern Neural Networks中的观点相反, 本文观察到calibration方面的改进远远落后于robustness方面的改进, 见图1(顶部). 此外, 以往的分析在评估模型可靠性时只考虑简单的calibration方法On Calibration of Modern Neural Networks; 相比之下, 本文向前迈进了一步, 探索了内容相关的校准策略[Local Temperature Scaling for Probability Calibration, Confidence calibration for domain generalization under covariate shift], 这些策略有望提高域外的可靠性.

重要结论

本文得到的观察如下:

  1. robustness显著提高,但calibration较差。
    1. 在domain shift的情况下, 最近的分割模型表现明显更好(就mIoU而言), 对更强的shift有更大的改进.
    2. 然而, 所有模型的OOD calibration error都急剧增加.
  2. content-dependent calibration可以改善OOD calibration,尤其是在强的domain shift的情况下,这种场景里模型calibration较差。
  3. misclassification detection显示域内和域外的模型排名不同。
    1. 当在域内测试时, 最近模型表现不如ResNet基线.
    2. 随着domain shift的增加, 最近的模型处于领先地位.
  4. OOD detection与性能呈负相关。事实上,小型ResNet-18骨干的性能最好。
  5. content-dependent calibration可以改善OOD detection和域外misclassification。改进calibration后,在强的domain shift下,misclassification detection显著增加,而OOD detection有着温和的提升。

相关内容

Robustness

关于模型鲁棒性的探究, 主要源自于神经网络对于输入域变化的脆弱性(brittleness).

  • 对合成偏移的鲁棒性, 考虑了人为改变图像而制作的样本, 例如:
    • 损坏鲁棒性(corruption robustness): 注入噪声或模糊.
    • 对抗性鲁棒性(adversarial robustness): 制作难以察觉的扰动以诱导模型失败.
  • 对自然偏移的鲁棒性, 侧重于在没有人为干预的情况下, 可能自然发生的变化.
    • 这份工作主要探究的是这一类. 因为这域真实世界应用的关系更加密切.
    • 本文特别关注城市场景的语义分割, 因此在未见过的地理位置和天气条件的样本上评估了模型.
    • 对自然偏移的分割鲁棒性在之前已经有过研究[On the Road to Online Adaptation for Semantic Image Segmentation, Domain Randomization and Pyramid Consistency: Simulation-to-Real Generalization without Accessing Target Domain Data], 但他们既没有与不确定性相结合, 也没有在考虑几个最新模型的大规模研究中进行.

Uncertainty

本文中, 这一概念与calibration密切相关. 在关于calibration的重要工作On Calibration of Modern Neural Networks中展示了深度模型是overconfident, 并提出temperature scaling(TS)来调整模型输出的logits(softmax之前).

虽然也有一些其他的calibration方案, 但由于简单和不改变预测(得分的相对大小关系)的特点, TS仍然非常受欢迎. 但是TS在域内(ID)的设定中是有效的, 但是对于域外设定(OOD)中, 模型的calibration会有显著退步. 一些方案对此进行了一些改进, 例如允许模型访问未标记的OOD数据.

关于语义分割的工作Local Temperature Scaling for Probability Calibration中, 提出了一种内容相关的calibration策略, 通过学习一个小的calibration网络来预测图像中每个像素的温度参数. 本文中主要专注于那些不需要访问OOD数据的技术, 因为一般来说, 鲁棒性是在看不见的域上评估的.

Datasets

为了评估模型在域内和域外的性能, 本文引入了三个数据集, 分别是用于ID设定的CityScape, 和OOD设定的IDD和ACDC数据集.

  • CityScape(CS): 包含了50个欧洲城市在白天整体天气良好的照片. 训练集和验证集使用来自不相交的城市集的序列. 按照该协议, 进一步将验证城市划分为calibration集和validation集. 由于CS是语义分割的主流基准, 这里使用它作为训练集(ID), 从而利用可用的训练权值.
  • IDD: 在海得拉巴、班加罗尔及其郊区采集. 考虑到不同的地理位置, 这给CityScape模型带来了明显的域偏移.
  • ACDC: 包含在不利条件下(雾、雨、雪和夜)拍摄的图像, 这些图像转化为强烈的域偏移. 与之前的工作相似, 这里关注协变量移位, 即输入分布的变化——保持标签集固定.

在实践中, 对于OOD设置(IDD和ACDC), 我们考虑CS中的19个类别, 忽略其他类别, 只有附录中的一个实验是特殊情况.

可靠性评估

评估方式

  • Robustness: 使用OOD设定下, 即ACDC和IDD上的mIOU指标. 同时也提供了在CS上测试的ID性能.
  • Calibration: 当预测的概率(即logits+softmax这种结构形式的softmax输出)与真实的准确率相对应时, 模型被称为"被校准的". 最常用的calibration指标是Expected Calibration Error(ECE), 这关注的是预测概率和实际概率之间的差值期望. 并通过下采样预测结果后来统计ECE.
  • Misclassification detection:对可靠模型的期望是为正确输出分配比错误输出更大的置信度. 在理想情况下, 如果将所有预测从最不自信到最自信排序, 将首先得到所有不正确的预测, 然后再得到正确的预测.misclassification detection度量了距离这种理想情况有多远. 这可以使用Rejection-Accuracy Curves来度量. 最终统计得到Prediction Rejection Ratio(PPR)来作为最终的指标.
  • Out-of-domain (OOD) detection: 可靠性的另一个重要方面是模型知道它们的"专业领域"(即, 它们的训练领域). 当一个样本显著不同于训练样本, 则期望模型的对齐预测更加不确定. 这里使用Area Under the Receiver Operating Characteristic curve(AUROC)来度量. 对于这一方面的评估, 本文从两个方面进行了分析, 一个是基于给定图像所有像素的平均置信度作为依据的图像级别划分方式, 一个则是考虑了那些没有出现在CS数据集中的类别的区域级别的OOD检测.

实验分析

robustness显著提高, 但calibration较差

由于考虑的域偏移是自然的, 而不是合成的, 因此没有直接的方法来评估它们的强度. 为此, 基于ResNet基线(DLV3+R101和UPNetR101)的性能退化程度, 建立了偏移严重程度的排序, 得到CS < IDD < ACDC.

image.png

d3b6328c-1763-472f-9481-c947c5580325.png

图二在图一的基础上扩展了同一系列不同体量版本的情况.

从图中分析中可以看出, 在domain shift增大的情况下:

对于Robustness:

  • 最近的分割模型mIoU性能明显更好, 对更强的shift有更大的改进, 相较于基于ResNet的方案的优势也越来越大.
  • 最新方案与旧有方案在域内性能和不同域外基准上的性能的差异情况, 也反映了仅评估ID性能可能会隐藏模型的真正价值, 因此, 为了充分掌握它们的潜力, 对架构的域外评估也是很重要的.
  • 虽然没有单一的模型族在所有数据集中都表现得更好, 但可以得出明确的结论, 即在自然变化下, 所有最近的模型都明显比建立作为基线的旧有模型更健壮.

而对于Calibration

  • 所有模型的ECE都急剧增加, 且所有模型之间的ECE并没有太大差异, 即最近的方法也并没有展现出优势.
  • TS的引入整体改善了ECE. 但是对于在IDD和ACDC上的OOD的calibration error仍然显著的大于CS上的ID的情况.
  • 总的来说, 无论是在TS之前还是之后, 最近的模型都没有比ResNet基线更好的校准.

content-dependent calibration可以改善OOD calibration

Clustering-based adaptive TS

为了改善OOD Calibration, 作者们将目光放到了Confidence calibration for domain generalization under covariate shift中提出的adaptive TS方案上. 因为这是一种不需要使用任何测试域的数据的处理OOD Calibration的方案,

基于提出的图像特征将Calibration Set聚类为多个"domain", 并为每个簇设置不同的温度系数来放缩相关图像在测试时的预测.

随然原本TS的应用于分类任务, 本文中将其扩展到了Segmentation任务中, 使用相同的温度系数放缩给定图像的所有的logits, 且聚类数量最终设置为16.

image.png

  • content-dependent calibration可以改善OOD calibration, 尤其是在强的domain shift的情况下, 这种场景里模型calibration较差.
  • 基于聚类的TS策略获得了改善, 但对于Calibration Set的不同设置也有着不同的性能差异(如图3中所示). 当使用所有数据集进行校准时(Clust All), 测试时图像在质量上接近分配的簇; 然而, 使用Clust CS或Clust CS aug. 时, OOD图像与其对应的簇中的校准图像差异较大. 作者认为聚类工作良好的一个隐式假设是测试时图像是接近校准集中的某个簇(域)的. 因此对于强的域偏移, 那就很难带来太多的提升.

image.png

  • 聚类策略相较于原始的TS, 并没有显著改善域内的calibration, 一些设置下甚至会变差. 一种可能的解释是, 这是由于温度参数对特定校准簇的过度拟合.
  • 在评估calibration set中的 ECE 时, 误差不会随着簇数量单调减少. 实际上这是可能的, 因为独立减少几个不相交的图像子集(簇)上的 ECE, 并不能保证联合集上的 ECE 将减少(文中对此提供了一些理论证明).
  • 除非校准集中存在测试域的代表性图像, 否则对校准集进行聚类不会带来显着的改进. 此外, 聚类策略在域内校准(CityScape数据集)方面并不比单纯的 TS 好.
基于Calibration Network的adaptive temperature设置

聚类方法的不足促使作者们进一步去探索其他的方案来基于输入自适应的调整温度.

作者们使用了Local Temperature Scaling for Probability Calibration中的方案, 即Local Temperature Scaling(LTS)方法. 其通过一个小的可学习的Calibration Network, 基于输入图像和模型logits预测, 来预测温度值参数.

这种方案适用于分割任务, 输出并不是针对单个图像的单一温度, 而是一个有着像素级温度值的图形式. 尽管其并非为OOD条件所设计, 但是本文也对其进行了尝试, 作者认为这种样本依赖的温度参数对于域偏移情况下会有帮助.

这里也划分了不同的Calibration Set来学习并探究Calibration Network的作用.

image.png

  • 仅使用了CS数据的LTS在不同的域偏移情况下展现出了良好的适应性, 甚至有时可以在ACDC上超过基于测试域数据的TS.
  • 数据增强的策略并未表现出实质性的提升.
  • 使用到所有数据集的时候, OOD结果获得改善, 但是对于CS数据集上, 即ID场景中, 反而增加了误差. 作者认为这可能是因为此时训练Calibration Network过程中, ACDC和IDD较大的Calibration Error主导了损失, 导致了域内性能的下降. 不同于LTS, 基于聚类的策略由于其独立为不同的簇进行优化, 所以这方面的问题不大.
  • 另外也可以注意到, 对于两个基线设定LTS O和TS O, 前者在两个域外数据集上表现更优, 而后者在域内的CS上表现更优. 作者认为这可能是因为CS这个数据集本身同质性相较而言更强, 因此更简单的方案表现得更好.
不同版本方案的对比

这里直接对比了三种在相同的Calibration Set, 即CS上构建的Calibration方案.

image.png

在域外强偏移设定下, LTS获得了最佳的效果. 在域内设定下, TS表现最好.

image.png

这里值得注意的是, LTS设定本身是预测像素级的温度系数, 而目前的聚类设定是基于图像级别的计算.

  • 但是在作者的实验中发现, 即使使用基于预测类别的像素级的聚类设定也并未获得提升. 当然, 作者也提到, 与图像簇类似, 当使用每个类簇时, 增加的数量似乎并不总是有帮助.
  • 此外, 除了SegFormer架构外, 这里没有发现类聚类显著改善校准.
  • 这里并不是说细粒度的簇可能不会产生进一步的改进(并达到与LTS相似的性能). 然而, 考虑到单独改善不同子域的ECE并不能保证改善整体校准, 也许需要一种不同的方法来寻找温度参数和簇, 同时考虑到局部和全局校准误差.

image.png

这里对仅使用图像或logits进行校准, 对LTS进行消融.

图像信息似乎对OOD校准更重要, 而logits在ID设置中更重要

misclassification detection and out-of-domain detection

image.png

misclassification detection在域内和域外的模型排名不同
  • 域内测试时, 同一模型的不同变体, 性能越高的往往也有更好的PRR.
  • 域内测试时, 最近模型表现不如ResNet基线.
  • 随着domain shift的增加, 最近的模型在PRR上处于领先地位.
OOD detection与性能呈负相关

模型鲁棒性和OOD检测之间很难达到同时最优. OOD检测与模型性能呈负相关. 事实上, 小型ResNet-18骨干的性能最好.

Calibration对Misclassification和OOD Detection的影响

image.png

content-dependent calibration可以改善OOD detection和OOD misclassification. 观察到:

  • 改进calibration后, 在强的domain shift下, misclassification detection显著增加. 尤其是LTS的作用显著. 因为它可能会使用输出的温度参数去纠正那些错误的预测.
  • 自适应TS技术是一种很有前途的改进强的域偏移下OOD检测和误分类检测的方法.
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值