详解Transformer-XL

最新推荐文章于 2024-03-07 18:05:32 发布

愚昧之山绝望之谷开悟之坡

最新推荐文章于 2024-03-07 18:05:32 发布

阅读量398

点赞数

分类专栏： Hugging Face 论文研读 PP/TF/PT 文章标签： transformer 自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15821487/article/details/119741261

版权

PP/TF/PT 同时被 3 个专栏收录

62 篇文章 0 订阅

订阅专栏

23 篇文章 4 订阅

订阅专栏

19 篇文章 0 订阅

订阅专栏

序列模型捕获数据长期依赖的能力在任何NLP任务中都是至关重要的，LSTM通过引进门机制将RNN的长期依赖的捕获能力提升到200个左右，Transformer的提出则进一步提升了获长期依赖的能力，但是Transformer的捕获长期依赖的能力是无限长的吗？如果有一个需要捕获几千个时间片的能力的模型才能完成的任务，Transformer能够胜任吗？答案从目前Transformer的设计来看，它还是做不到。

这篇文章介绍的Transformer-XL（extra long）则是为了进一步提升Transformer建模长期依赖的能力。它的核心算法包含两部分：片段递归机制（segment-level recurrence）和相对位置编码机制(relative positional encoding)。Transformer-XL带来的提升包括：1. 捕获长期依赖的能力；2. 解决了上下文碎片问题（context segmentation problem）；3. 提升模型的预测速度和准确率。
这种分段式的提供数据的方式的一个很大的问题是数据并不会在段与段之间流通，因此模型能够捕获的长期依赖的上限便是段的长度。另外这种将数据分段，而不考虑段与段之间的关系无疑是非常粗暴的，对于模型的能力无疑是要打折的。这个问题便是我们所说的上下文碎片问题。

愚昧之山绝望之谷开悟之坡

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
详解Transformer-XL

序列模型捕获数据长期依赖的能力在任何NLP任务中都是至关重要的，LSTM通过引进门机制将RNN的长期依赖的捕获能力提升到200个左右，Transformer的提出则进一步提升了获长期依赖的能力，但是Transformer的捕获长期依赖的能力是无限长的吗？如果有一个需要捕获几千个时间片的能力的模型才能完成的任务，Transformer能够胜任吗？答案从目前Transformer的设计来看，它还是做不到。这篇文章介绍的Transformer-XL（extra long）则是为了进一步提升Transformer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。