学习总结
Transformer 的进一步改进可能在于以下几个方向:
0.1 理论分析
Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集。许多工作表明,Transformer 具有比 CNN 和 RNN 更大的容量,因此具有处理大量训练数据的能力。当 Transformer 在足够的数据上进行训练时,它通常比 CNN 或 RNN 具有更好的性能。一个直观的解释是 Transformer 对数据结构的先验假设很少,因此比 CNN 和 RNN 更灵活。然而,理论原因尚不清楚,我们需要对 Transformer 能力进行一些 理论分析。
0.2 全局交互机制
Transformer 的一个主要优点是使用注意力机制来模拟输入数据中节点之间的全局依赖关系。然而,许多研究表明,对于大多数节点来说,完全注意是不必要的。在某种程度上,无法区分地计算所有节点的注 意力是低效的。因此,在有效地建模全局交互方面仍有很大的改进空间。
- 一方面,self-attention 模块可以看成是一个具有动态连接权重的全连接神经网络,通过动态路由聚合非局部信息。因此,其他动态路由机 制是值得探索的替代方法。
- 另一方面,全局交互也可以由其他类型的神经网络建模,例如记忆增强模型。
0.3 多模态统一框架
在许多应用场景中,集成多模态数据对于提高任务性能是有用且必要的。此外,通用人工智能还需要 能够捕捉不同模态的语义关系。由于 Transformer 在文本、图像、视频和音频方面取得了巨大的成功,我们有机会构建一个统一的框架,更好地捕捉多模态数据之间的内在联系。然而,模内和跨模态注意力的设 计仍有待改进。
文章目录
- 学习总结
- 五、transformer的变体(谷歌版)
-
- 5.1 transformer的分类
- 5.2 transformer的变体
-
- (1)Memory Compressed Transformer
- (2)Image Transformer
- (3)Set Transformer
- (4)Spare Transformer
- (5)AXial Transformer
- (6)Longformer
- (7)Extended Transformer Construction
- (8)BigBird
- (9)Routing Transformer
- (10)Reformer
- (11)SinkhornTransformer
- (12)Linformer
- (13)Linear Transformer
- (14)Performer
- (15)Synthesizer
- (16)Transformer-XL
- (17)Compressive Transformer
- 5.3 小结
- 六、transformer的变体(复旦版)