零基础学nlp【2】 注意力机制
主要内容
在使用encoder-decoder用于机器翻译的任务中,作者在在encoder和decoder上做了某些结构的修改:1)在encoder上使用了双向的循环门控单元,使得encoder得到的每个输入的隐变量同时包含前后部分的信息 2)decoder中在每次解码过程中利用引入注意力机制的变量代替了原先的固定的变量,输入解码器中。通过这样的改变(主要是引入了注意力机制),使得建立的模型在对长句的翻译效果得到了巨大的提升。
如图左边为包含了注意力机制的decoder结构,右图为普通的encoder-decoder模型,可以看出注意力机制是将encoder中的隐变量通过权重比的设置集合成一个C用来代替之前的用最后一个输入得到的隐变量C,即对于不同的输出&#x