文章目录
前言
Transformer是一个利用注意力机制来提高模型训练速度的模型。关于注意力机制可以参看这篇文章,trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。
高层次的自我关注(Self-Attention at a High Level)
不要被我 "self-attention"这个词所迷惑,好像它是每个人都应该熟悉的概念。
我个人在阅读《注意力就是你所需要的一切》一文之前,从未接触过这个概念。让我们来提炼一下它的工作原理。
假设下面这句话是我们要翻译的输入句:
"动物没有过马路,因为它太累了。
这句话中的 "它 "指的是什么?是指街道还是指动物?这个问题对人类来说很简单,但对算法来说就不那么简单了。
当模型在处理 "它 "这个词时,自我注意力会让它把 "它 "和 "动物 "联系起来。
当模型处理每一个单词(输入序列中的每一个位置)时,自