【置信度校准】On Calibration of Modern Neural Networks论文阅读笔记

蘑菇桑巴

已于 2023-10-24 15:39:14 修改

阅读量2.1k

点赞数 1

分类专栏：置信度校准文章标签：深度学习神经网络机器学习 1024程序员节

于 2021-10-04 11:15:25 首次发布

本文链接：https://blog.csdn.net/royole98/article/details/120602199

版权

置信度校准专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要

置信度校正——预测代表真实正确性似然（可能性）的概率估计问题，在许多应用中对分类模型是重要的。

通过大量的实验，我们观察到深度网络的深度、宽度、权重衰减和批归一化是影响校准的重要因素。

在这篇文章中,还提出了一种基于早期置信度校准方法Platt scaling的变式——temperature　scaling

一．引言

校准的概率的重要性

分类网络不仅需要准确，还需要知道什么时候是不正确的。
在一些实际应用中，人们需要可靠的模型进行判断，而不是单纯的需要一个高准确率的模型．以自动驾驶为例，检测网络应该对检测出的障碍物出现与否的概率非常地自信，这样驾驶员才能放心根据模型输出的概率进行判断．然后，模型也不能盲目地给一个不确定地目标很高的置信度，而是应该给到一个低的置信度，这样汽车应该更多地依靠其他传感器的输出来制动．
另外，好的概率估计也可以使神经网络纳入概率模型中．

存在问题

现在的深度模型相比之前而言存在过自信的问题．

二．定义

输入　Ｘ
标签　Ｙ　有Ｋ个类别
模型　ｈ　有ｈ（Ｘ）＝（＼ｈａｔ（Ｙ），＼ｈａｔ（Ｐ））
置信度校准问题定义：

评级指标：

①Reliability　Diagram

②ＥＣＥ

③ＭＣＥ

④ＮＬＬ

三．　模型失准原因分析

①模型容量

通过神经网络的层数（深度），以及每一层滤波器的数量（宽度）来体现．模型越深越宽，校准性可能越低

②批归一化

经过批归一化的网络更容易变得不校准，且和使用的模型超参没有关系。

③权重衰退

作为一种深度网络训练的正则化手段。权重衰减较小的训练会给校准带来负面影响

④NLL

NLL损失和准确度之间关系可能不大，这种断开是因为神经网络可以过拟合NLL而不会过拟合0/1损耗。高容量的模型并不能避免过拟合导致的概率误差，而不是分类误差

This phenomenon renders a concrete explanation of miscalibration: the network learns better classification accuracy at the expense of well-modeled probabilities.

四、校准方法

这里的方法主要都是后处理的方法，需要先划分出一个held-out validation数据集，在这个基础上进行参数优化。

4. 1 二分类模型

histagram binning
Isotonic regression
Beyesian Binning into Quantiles
Platt Scaling

（具体详见我另一篇博文几种经典概率校准方法（Platt scaling、 histogram binning、 isotonic regression、 temperature scaling）_ROYOLE'S-CSDN博客https://blog.csdn.net/royole98/article/details/120503829?spm=1001.2014.3001.5501）

4. 2 多分类模型拓展

Matrix and vector Scaling

对输出logits做线性变化

Temperature Scaling

该模型等价于输出概率分布的熵值最大化，并受对数的约束

4. 3相关工作：

Calibration and confidence scores have been studied in various contexts in recent years.

对抗学习
结构化目标
集成学习
正则化
检测分布外样本
贝叶斯网络——和dropout之间的联系

相比之下，我们的框架没有扩充神经网络模型，它返回的是一个置信度评分，而不是可能输出的分布。

蘑菇桑巴

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【置信度校准】On Calibration of Modern Neural Networks论文阅读笔记

摘要置信度校正——预测代表真实正确性似然（可能性）的概率估计问题，在许多应用中对分类模型是重要的。通过大量的实验，我们观察到深度网络的深度、宽度、权重衰减和批归一化是影响校准的重要因素。在这篇文章中,还提出了一种基于早期置信度校准方法Platt scaling的变式——temperature　scaling一．引言校准的概率的重要性分类网络不仅需要准确，还需要知道什么时候是不正确的。在一些实际应用中，人们需要可靠的模型进行判断，而不是单纯的需要一个高准确率的模型．以自动驾
复制链接

扫一扫