序列到序列常见的有3种:基于神经网络的序列到序列模型、基于注意力的序列到序列模型、基于自注意力的序列到序列模型 参考nndl 15.6节
基于注意力的序列到序列模型
原理
链接:李宏毅视频 https://www.bilibili.com/video/av26543556?p=2
z
0
z^0
z0是可以学习的参数,分别计算
z
0
z^0
z0和
h
1
h^1
h1、
h
2
h^2
h2、
h
3
h^3
h3、
h
4
h^4
h4的相似性(可以计算余弦相似性,也可以是nn或其它),通过softmax进行归一化得到权重,然后计算
c
0
c^0
c0
类似地计算出
c
1
c^1
c1
基于自注意力的序列到序列模型
参考1:https://www.jianshu.com/p/b1030350aadb(包含了一些图帮助理解并有代码实现)
参考2:https://blog.csdn.net/longxinchen_ml/article/details/86533005(十分详细的介绍)