transformer的一些note

最新推荐文章于 2023-04-17 12:15:07 发布

CaptainMou

最新推荐文章于 2023-04-17 12:15:07 发布

阅读量137

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014261001/article/details/108223125

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Pos-Embedding

不同维度的正弦曲线，横轴为变化的pos。
在这里插入图片描述

我们还尝试使用学习的位置embedding来代替，发现这两个版本产生了几乎相同的结果。我们选择正弦模型是因为它可以使模型外推到比训练中遇到的序列长度长的序列。

Label Smoothing

one-hot在多分类中的不足

在预测分类时，我们用交叉熵做损失函数去拟合真实概率，这里我们用one-hot去表示真实概率，但是这会有两个个问题：

这会导致模型对正确分类的情况奖励最大，错误分类惩罚最大。如果训练数据能覆盖所有情况，或者是完全正确，那么这种方式没有问题。但事实上，这不可能。所以这种方式可能会带来泛化能力差的问题，即过拟合。
这种情况下鼓励还未归一化的logits在真实这类的数值与其他类别的logits差距尽可能大，这导致模型过于相信预测这一类。

在这里插入图片描述
使用Label Smoothing情况下，我们很容易可以推导出在最优解处正确类别的logits和错误类的只差一个常数。
https://blog.csdn.net/u012759262/article/details/104036889

未完待续

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer的一些note

Pos-Embedding不同维度的正弦曲线，横轴为变化的pos。我们还尝试使用学习的位置embedding来代替，发现这两个版本产生了几乎相同的结果。我们选择正弦模型是因为它可以使模型外推到比训练中遇到的序列长度长的序列。未完待续...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。