后Transformer时代

最新推荐文章于 2024-07-10 14:45:10 发布

爱编程真是太好了

最新推荐文章于 2024-07-10 14:45:10 发布

阅读量406

点赞数

分类专栏： Transformer 深度学习自然语言处理文章标签：人工智能机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012526436/article/details/109120746

版权

深度学习同时被 3 个专栏收录

44 篇文章 6 订阅

订阅专栏

自然语言处理

26 篇文章 8 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

前言

Transformer(下文用Tm代替)引领了预训练模型的潮流，创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构，但是因为其高复杂度的模型结构，时间复杂度达到了 $O(n^2)$ ，那么Tm能否把时间复杂度降低的同时效果也能保留呢？目前大部分的预训练语言模型base版本，其支持的文本最大长度仅有512，如果想让其支持更长的序列，对于显存的要求也是极高的，对于过长的序列，Tm又该怎么处理呢？

也因这两个问题的存在，这两年提出了很多优秀的Tm改版，本文会为读者介绍分享这些新的改进版Transformer，欢迎大家留言讨论。

模型(更新中)

Transformer-XL
Sparse Transformers
Sliding Window Attention
Routing Attention
BigBird
Adaptive Attention Span
Reformer
Longformer

爱编程真是太好了

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
后Transformer时代

前言Transformer(下文用Tm代替)引领了预训练模型的潮流，创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构，但是因为其高复杂度的模型结构，时间复杂度达到了O(n2)O(n^2)O(n2)，那么Tm能否把时间复杂度降低的同时效果也能保留呢？目前大部分的预训练语言模型base版本，其支持的文本最大长度仅有512，如果想让其支持更长的序列，对于显存的要求也是极高的，对于过长的序列，Tm又该怎么处理呢？也因这两个问题的存在，这两年提出了很多优秀的Tm改版，本文会为读者介绍分享这些新
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。