【Attention机制】相应的理论基础
1.Attention图解说明
1.1 对比
下面是传统的Seq2Seq的模型,根据输入的C,每次输入的结果都是C,最终得到相应的翻译的结果。
Seq2Seq的缺点就是对于每一次的翻译结果,对每个词都同等的对待,但是我们在翻译学习2字的时候,应该更加关注机器学习中的学习两个字。
Attention机制相对与传统的Seq2Seq的不同之处,在于其每次得到的结果不在是单一的一个C,而是当获取到机器两个字的数据的时候,得到的结果是C1,学习两个字的数据得到的结果是C2,将不同的C1和C2 传入到Decoder中得到最终的翻译结果。
1.2 Attention机制步骤图解
Z0是decoder部分学习得到,代表是解码器初始的隐藏层的状态。类似与编码器中的h0
Z0与相应的h1进行一个match操作,match就是Attention操作。生成一个α0。