Pos-Embedding
不同维度的正弦曲线,横轴为变化的pos。
我们还尝试使用学习的位置embedding来代替,发现这两个版本产生了几乎相同的结果。我们选择正弦模型是因为它可以使模型外推到比训练中遇到的序列长度长的序列。
Label Smoothing
one-hot在多分类中的不足
在预测分类时,我们用交叉熵做损失函数去拟合真实概率,这里我们用one-hot去表示真实概率,但是这会有两个个问题:
- 这会导致模型对正确分类的情况奖励最大,错误分类惩罚最大。如果训练数据能覆盖所有情况,或者是完全正确,那么这种方式没有问题。但事实上,这不可能。所以这种方式可能会带来泛化能力差的问题,即过拟合。
- 这种情况下鼓励还未归一化的logits在真实这类的数值与其他类别的logits差距尽可能大,这导致模型过于相信预测这一类。
使用Label Smoothing情况下,我们很容易可以推导出在最优解处正确类别的logits和错误类的只差一个常数。
https://blog.csdn.net/u012759262/article/details/104036889
未完待续