Transformer Label-smoothing 标签平滑

抱枕无忧

已于 2022-09-20 11:20:05 修改

阅读量483

点赞数

文章标签： python 深度学习

于 2022-09-20 10:29:53 首次发布

本文链接：https://blog.csdn.net/qq_38878964/article/details/126948199

版权

标签平滑是一种用于分类问题的正则化方法，旨在减少模型对单一预测的过度自信。本文介绍了Transformer模型中如何应用标签平滑，以解决过拟合问题，提高模型泛化能力。

摘要由CSDN通过智能技术生成

1、简介

在分类问题中，我们的最后一层一般是全连接层，然后对应标签的one-hot编码，即把对应类别的值编码为1，其他为0。这种编码方式和通过降低交叉熵损失来调整参数的方式结合起来，会有一些问题。这种方式会鼓励模型对不同类别的输出分数差异非常大，或者说，模型过分相信它的判断。但是，对于一个由多人标注的数据集，不同人标注的准则可能不同，每个人的标注也可能会有一些错误。模型对标签的过分相信会导致过拟合。

标签平滑(Label-smoothing regularization,LSR)是应对该问题的有效方法之一，它的具体思想是降低我们对于标签的信任，例如我们可以将损失的目标值从1稍微降到0.9，或者将从0稍微升到0.1。标签平滑最早在inception-v2中被提出。

2、transformer 标签平滑

class LabelSmoothing(nn.Module):
    "Implement label smoothing."
    def __init__(self, size, padding_idx, smoothing=0.0):
        super(LabelSmoothing, self).__init__()
        self.criterion = nn.KLDivLoss(size_average=False)
        self.padding_idx = padding_idx
        self.confidence = 1.0 - smoothing
        self.smoothing = smoothing
        self.size = size
        self.true_dist = None
        
    def forward(self, x, target):
        assert x.size(1)