注意力机制

最新推荐文章于 2022-08-24 17:16:15 发布

求学路上的小白

最新推荐文章于 2022-08-24 17:16:15 发布

阅读量179

点赞数

分类专栏： pytorch 文章标签：人工智能

本文链接：https://blog.csdn.net/qq_37150124/article/details/110826281

版权

pytorch 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

                    
                    从人工翻译句子的经验中可以的到很多启发，从而改善我们提到的串到串模型。人工翻译句子的时候，首先阅读整个句子理解要表达的意思，然后开始写出相应的翻译。但是一个很重要的方面就是在你写新的句子的时候，通常会重新回到源语言的文本，特别注意你目前正在翻译的那部分在源语言中的表达，以确定最好的翻译结果。而我们前面提到编码器的隐含层状态，这个过程像人工翻译的第一部分，而通过编码器得到最终的翻译结果，解码器处理的是翻译的第二个部分。但是“特别注意”的部分在我们的串到串模型中还没有体现，这也是需要完成的部分。
为了在串到串模型中添加注意力机制，在解码器在产生t时刻的输出时让解码器访问所有从编码器的输出，这样解码器可以观察源语言的句子，这个过程时之前没有的。但是在每个时间步都考虑编码器的所有输出，这和人工翻译的过程还是不同的，人工翻译时对于不同的部分，需要关注源语言中特定的很小的部分。所以，直接让解码器工作的时候可以动态地注意编码器地输出地特定部分，有研究者提出的解决方案是把输入变成串联操作，在编码器的输出上使用一个带权重，也就是解码器在t-1时刻的状态，而不是直接使用其输出。具体做法是，首先为编码器的每个输出关联一个分数，这个分数由解码器t-1时刻的网络状态和每个解码器输出的点乘积得到的，然后用softmax层对这些关联分数进行归一化。最后，在加入到串联操作之前，利用归一化后的分数分别度量编码器的输出。这个策略的关键是，解码器的没和输出计算得到的关联分数，表示了每个编码器输出对解码器t时刻决策的重要程度。
注意力机制提出后受到了广泛的关注，并在语音识别、图像表述等应用上有很好的效果。

求学路上的小白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
注意力机制

从人工翻译句子的经验中可以的到很多启发，从而改善我们提到的串到串模型。人工翻译句子的时候，首先阅读整个句子理解要表达的意思，然后开始写出相应的翻译。但是一个很重要的方面就是在你写新的句子的时候，通常会重新回到源语言的文本，特别注意你目前正在翻译的那部分在源语言中的表达，以确定最好的翻译结果。而我们前面提到编码器的隐含层状态，这个过程像人工翻译的第一部分，而通过编码器得到最终的翻译结果，解码器处理的是翻译的第二个部分。但是“特别注意”的部分在我们的串到串模型中还没有体现，这也是需要完成的部分。为了在串到串.
复制链接

扫一扫