前言
Transformer(下文用Tm代替)引领了预训练模型的潮流,创造了NLP中的无数SOTA。Tm从RNN的串行结构进化成了并行结构,但是因为其高复杂度的模型结构,时间复杂度达到了 O ( n 2 ) O(n^2) O(n2),那么Tm能否把时间复杂度降低的同时效果也能保留呢?目前大部分的预训练语言模型base版本,其支持的文本最大长度仅有512,如果想让其支持更长的序列,对于显存的要求也是极高的,对于过长的序列,Tm又该怎么处理呢?
也因这两个问题的存在,这两年提出了很多优秀的Tm改版,本文会为读者介绍分享这些新的改进版Transformer,欢迎大家留言讨论。
模型(更新中)
- Transformer-XL
- Sparse Transformers
- Sliding Window Attention
- Routing Attention
- BigBird
- Adaptive Attention Span
- Reformer
- Longformer