Attention Is All You Need 论文阅读
题目:Attention Is All You Need
一、Introduction
RNN的不足:
循环模型通常是沿着输入与输出序列的符号位置进行因子计算。在计算时将位置与步骤对齐,它们会生成一个隐藏状态ht序列,由先前隐藏状态ht-1和位置输入t组成的一个函数(现在的状态依赖于前面的状态)。这种固有的序列性质在训练中无法进行并行化,这在较长的序列中是至关重要的。尽管最近的研究通过因子分解技巧和条件计算已经在计算效率方面得到了显著进步,同时也提高了后者的模型性能,但是序列计算的限制依然存在。
注意力机制
原创
2021-11-09 10:55:35 ·
1201 阅读 ·
0 评论