《Multi-Head Multi-Loss Model Calibration》

最新推荐文章于 2025-02-02 17:29:06 发布

小杨小杨1

最新推荐文章于 2025-02-02 17:29:06 发布

阅读量680

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # 非模型优化文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_45745941/article/details/129356586

非模型优化专栏收录该内容

27 篇文章

订阅专栏

本文提出了一种简化版的模型集成，通过在神经网络的末端使用多个头部并用不同的损失函数监督，以增强预测的多样性，从而实现模型校准。这种方法避免了深度集成的高计算成本，同时在两个数据集上展现出与DeepEnsembles相当的校准性能。实验表明，多头多损失分类器能提供良好的校准，优于其他近期的校准技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Multi-Head Multi-Loss Model Calibration》

摘要

提供有意义的不确定性估计对于在临床实践中成功部署机器学习模型至关重要。
不确定性量化的一个核心方面是模型返回与模型正确的实际概率一致的预测的能力，也称为模型校准。
没有一种技术可以与简单但昂贵的训练深度神经网络集成的方法相匹配。
本文介绍了一种简化的集成形式，绕过了昂贵的深度集成的训练和推断，保持了其校准能力。
用一组头部来代替网络末端的常见线性分类器，这些头部被不同的损失函数监督，以加强其预测的多样性。
每个头都被训练成最小化加权交叉熵损失，但不同分支之间的权重是不同的。
所得到的平均预测可以在不牺牲准确性的情况下，在两个具有挑战性的数据集中实现出色的校准，用于组织病理学和内窥镜图像分类。
实验表明，MultiHead Multi-Loss分类器本质上是校准良好的，优于其他近期校准技术，甚至挑战Deep Ensembles的性能。

引言

在训练有监督的计算机视觉模型时，我们通常专注于提高它们的预测性能，但对于安全关键任务来说，同样重要的是它们对自己的预测表达有意义的不确定性的能力。在机器学习的背景下，我们经常区分两种类型的不确定性:认知的和任意的。简单地说，认知不确定性来自于模型对它被训练来解决的问题的不完全知识，而任意不确定性描述了对数据的无知用于学习和预测。

例如，如果一个分类器已经学会了在结肠组织病理学上预测癌组织的存在，并且它的任务是对乳房活检进行预测，它可能会显示出认知的不确定性，因为它从未针对这个问题进行过训练。尽管如此，如果我们向模型询问具有模糊视觉内容的结肠活检，即难以诊断的图像，那么它可以表达任意的不确定性，因为它可能不知道如何解决问题，但模糊性来自于数据。

认识性和任意性之间的区别通常是模糊的，因为其中一个的存在并不意味着另一个的不存在。此外，在强烈的认知不确定性下，任意不确定性估计可能变得不可靠

产生良好的不确定性估计是有用的，例如，识别模型预测可信度低的测试样本，应该对其进行审查。

报告不确定性估计的一种直接方法是将模型的输出(其软最大概率的最大值)解释为其预测置信度。当这个置信度与实际精度一致时，我们说模型被校准。

训练校准（Training-Time Calibration）

流行的训练时间方法包括通过正则化来降低预测熵，例如标签平滑或MixUp，或平滑预测的损失函数。这些技术通常依赖于正确调优超参数，控制辨别能力和置信度之间的权衡，并且可以以降低预测性能为代价轻松实现更好的校准。或基于空间变化和边缘的标签平滑，它们扩展和改进了用于生物医学图像分割任务的标签平滑

事后校准（Post-Hoc Calibration）

提出了诸如Temperature Scaling及其变体等事后校准技术，通过在模型的输出概率上应用简单的单调映射来纠正过度或不自信的预测。它们最大的缺点是依赖于使用验证数据学习映射时隐含的假设:这些方法难以推广到未见数据。

除此之外，这些技术可以与训练时方法相结合，并带来复合性能改进。

模型集成（Model Ensembling）

改进校准的第三种方法是聚合几个模型的输出，这些模型事先经过训练，因此它们的预测具有一定的多样性。在深度学习中，模型集成被认为是产生有意义的不确定性的最成功的方法估计。深度集成的一个明显弱点是需要训练，然后为推理目的保留一组模型，这导致了对于较大的体系结构来说相当大的计算开销。在医学图像计算中应用集合的例子包括。

在这项工作中，我们通过不同损失函数训练的多头模型来实现模型校准。从这个意义上说，我们的方法最接近于最近在多输出架构上的一些工作，其中多分支CNN在组织病理学数据上进行训练，通过通过损失最小的分支反向传播梯度来强制不同头部的专门化。

与我们的方法相比，确保正确的梯度流以避免死头需要特别的计算技巧;此外，没有对域内数据和任意不确定性的模型校准进行分析，主要集中在异常检测上。