#今日论文推荐# ICML 2022 | 基于Logit归一化的置信度校准方法
神经网络经常出现过度自信问题(overconfidence),表现为对 in-distribution 和 out-of-distribution 的数据都产生比较高的概率置信度,这是 OOD 检测的一个最基础的概念。本文提出一种 Logit Normalization 方法,在训练过程中将 Logit 的范数限定为一个常数,对传统的交叉熵损失进行修正,来缓解这种 overconfidence 问题。
之前 OOD 检测的研究主要聚焦于设计一种比 maximum softmax probability (MSP) 更好的指标来度量 OOD 不确定性。但是很少研究关注神经网络过度自信的原因,以及如何缓解神经网络的过度自信。
作者认为这才是 OOD 检测的本质问题。作者首先做了一个分析,看神经网络训练过程中,Logit 范数的变化。可以发现即使大多数训练示例被分类到正确的标签,softmax 交叉熵损失也可以继续增加 Logit 向量的大小。因此,训练期间不断增长的幅度会导致过度自信问题。
为了缓解上述问题,直接的想法就是在训练过程中将 Logit 范数限定为一个常数,同时保持 Logit 向量方向不变(本文提出的 LogitNorm 方法)。
论文题目:Mitigating Neural Network Overconfidence with Logit Normalization
详细解读:https://www.aminer.cn/research_report/62fa442f7cb68b460f03ccb9https://www.aminer.cn/research_report/62fa442f7cb68b460f03ccb9
AMiner链接:https://www.aminer.cn/?f=cs