目录
attention机制相比于普通的seq2seq最重要的区别在于引入了match块。
match的输出
match块的输出实际上是输入序列的权重,通过match块输出的变化,神经网络对于输入序列不同的位置的关注度发生变化,从而实现“attention”的效果。
match的输入
Match的输入在一般情况下,包含h和z,h代表输入序列的当前位置,而z则代表decoder的隐藏层的状态,在这种输入下,match的输出ɑ则代表输入序列当前位置在decoder的当前位置的权重,是一个标量。
以下是几种match的具体实现
attention扩展
在attention之外,还有类似的memory network,nural turning network,主要用于问答系统
训练技巧
权重正则化
通过数学方法,缩小权重之间的差距,一般情况会有更好效果?
Scheduled sampling
Beam search
Objective level
R无法求导,所以无法进行梯度下降,但是可以用增强学习解决