attention is all you need
循环神经网络、长短期记忆 和门控循环神经网络,已被牢固地确立为序列建模和转导问题(如语言建模和机器翻译)的最先进方法。循环模型通常沿输入和输出序列的符号位置考虑计算。将位置与计算时间的步骤对齐,它们生成一系列隐藏状态 ht,作为先前隐藏状态 ht-1 和位置 t 的输入的函数。这种固有的顺序性质排除了训练示例中的并行化,这在更长的序列长度下变得至关重要,因为内存限制限制了示例之间的批处理。最近的工作通过因式分解技巧和条件计算显着提高了计算效率,同时还提高了后者的模型性能。然而,顺序计算的基本约束仍然存在。
原创
2022-11-07 21:46:16 ·
658 阅读 ·
0 评论