本文根据作者在AIDrive上的分享和自己对论文的一些理解,整理而成。
这篇论文主要解决长序列预测问题。
作者认为以前的很多工作其实关注的是长序列输入学习问题(Long Sequence Input Learning Problem),更关心在输入上的表征,更注重加强模型在处理大量输入时的能力
而长序列预测问题,更关心输出的准确性,最主要的事情是建立长序列输入和长序列输出的映射或者Attention
Motivation:为什么要选择注意力机制
Attention机制在处理信息时不会关注全局信息,而是关注更加值得注意的部分
Transformer使用自注意力机制
Transformer能否用于长序列预测问题?
原生Transformer无法支持长序列输入和长序列输出,在计算Attention会计算点和所有点之间的距离,复杂度很高
所以怎么做到让类Transformer模型处理长序列预测问题
- 自注意力机制的原子操作,使得时间复杂度和内存使用率为o(l2)------复杂度
- 内存开销出现瓶颈