label smoothing(标签平滑)

最新推荐文章于 2024-04-18 21:24:24 发布

muxiu木秀

最新推荐文章于 2024-04-18 21:24:24 发布

阅读量540

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35073251/article/details/111764182

版权

问题

交叉熵训练时会自动往减小误差函数的方向，即驱使自身往正确标签和错误标签差值最大的方向学习，在训练数据不足以表征所有样本特征的情况下，这就会导致网络过拟合。

解决

one-hot硬编码形式的标签会导致过拟合，而label smoothing是一种正则化策略，通常用于分类问题，通过soft one-hot 标签来引入噪声，减小了真实样本标签的类别在计算损失函数时的权重，从而改善泛化能力差的问题。

对于分类问题，传统的one-hot编码的标签向量为：

$y_{i}=\left\{\begin{matrix} 1, &i=target \\ 0,&i\neq target \end{matrix}\right.$

而label smoothing结合了均匀分布，用更新的标签向量 $\hat{y_{i}}$ 来替换传统的one-hot编码的标签向量 $y_{hot}$ :

$\hat{y_{i}}=y_{hot}\left ( 1-\alpha \right )+\frac{\alpha }{K}$

其中K为多分类的类别总个数， $\alpha$ 是一个较小的超参数（一般取0.1），即

$\hat{y_{i}}=\left\{\begin{matrix} 1-\alpha, & i=target\\ \alpha /K,& i\neq target \end{matrix}\right.$

这样，标签平滑后的分布就相当于往真实分布中加入了噪声，避免模型对于正确标签过于自信，使得预测正负样本的输出值差别不那么大，从而避免过拟合，提高模型的泛化能力。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。