Transformer-XL论文阅读笔记

最新推荐文章于 2024-08-09 07:36:49 发布

上帝是个小女孩

最新推荐文章于 2024-08-09 07:36:49 发布

阅读量2k

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42532133/article/details/122517467

版权

论文链接：1901.02860.pdf (arxiv.org)

打比赛的时候，本文长度超过512，可能会用到。

主要是解决两个问题吧：

其一就是如果强行把长文本分成不同的segment，那这些segment之间没有信息流动。

其二就是如果按512的长度去做trunction，那么有可能某些词会被从中间截断。

主要的思路就是：前面segment计算出的hidden state，将会当作memory，然后输入后面的segment进行计算，这样就可以让信息传得比较远，就可以处理长文本了。

这篇文章还有一个创新点就是，因为原来的BERT处理的最长文本是512，所以实际上只需要学习512个absolute positional encodings就行了，但是现在Transformer-XL能够处理的文本是特别长的，在inference可能有见到比train时还长的文本，所以使用absolute的位置编码就不合适了。因此这篇文章使用了相对位置编码，也就是relative positional encodings。

注意：正向传播的时候如上图所示，反向更新梯度时，梯度不回传到前面的segment。

绝对位置编码和相对位置编码公式：

改变的点：

所有出现Uj的地方，都用R(i-j)代替。通俗点说，我（query）不需要知道你（key）的绝对位置，我只需要知道你离我多远。
c和d两项，对于query，其实并不在意它所处的位置，理论上，如果他的context是相同的，那么计算的结果也应该是一样的。所以，query的位置编码设为了一个constant的matrix，即c和d中的u和v。
原来的attention公式中，只有一个Wk，现在分成了Wk，E和Wk，R，这样能够更加精确地计算出content-based embedding和location-based embedding。

最后附上一个完整地公式。

上帝是个小女孩

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。