Label Smoothing标签平滑详解+Pytorch保姆级实际操作

狗狗狗大王

已于 2024-04-17 15:21:59 修改

阅读量1.3w

点赞数 34

分类专栏： Pytorch实战算法文章标签：深度学习机器学习人工智能 python 算法

于 2021-04-20 00:08:13 首次发布

本文链接：https://blog.csdn.net/weixin_41811314/article/details/115863126

版权

本文详细介绍了Label Smoothing的概念、作用和正则化效果，通过分析Szegedy等人的论文，解释了LS如何避免模型输出偏激。此外，还提供了Pytorch实现Label Smoothing的保姆级代码示例。

摘要由CSDN通过智能技术生成

简介

Label Smoothing是一个帮助多分类模型进行正则化的操作。

从提出Label Smoothing的论文出发

"When Does Label Smoothing Help? "这篇文章指出Szegedy et al.提出了Label Smoothing. 因此我们就从Szegedy et al.的文章入手。在这里我们简称Label Smoothing为LS。
标签平滑也可以被简称为LSR(Label-Smoothing Regularization)。

不使用LS时的情况

假设我们有一个K分类问题，我们有标签1到K。
假设 $z_k$ 是类 $k$ 未经softmax的log概率值，
设x是一个训练input
那么我们的模型给我们的每一个类 $k$ 的概率就是：
$\frac{exp(z_k)}{\sum_{i=1}^{k}exp(z_i)}$
假设 $q (k ∣ x)$ 是类 $k$ 的真实概率标签。

那么此处的Cross Entropy Loss就是(此处省去了条件概率后面的 “ $∣ x$ ”)：
$\sum_{k=1}^{K}\log(p(k)) q(k)$
这个loss关于 $z_k$ 求导的话：
$\frac{\partial l}{\partial z_k} = p(k)-q(k)$
这个值是肯定在-1和1之间的

假设K个类别中，只有类别y是正确的。也就是说，只有q(y)=1,
对于其他的q(k)，只要 $k\neq y$ , q(k)=0。
此时，使得loss $l$ 最小，就是要让正确label y的log-likelihood最大。因为把所有的q(k)=0的情况都消掉之后，我们就有
$\begin{aligned} l &= - \log(p(y)) q(y)\\ &= -\log(p(y)) \end{aligned}$
所以当某训练input x的标签是y时，如果模型的输出能够做到
$z_y \gg z_k$
(for all $k\neq y$ )
那么此时我们就可以让loss达到尽可能小。