【自然语言处理】：seq2seq当中的Attention注意力机制

最新推荐文章于 2024-09-13 18:10:37 发布

Geeksongs

最新推荐文章于 2024-09-13 18:10:37 发布

阅读量545

点赞数 1

文章标签： nlp 自然语言处理深度学习人工智能 python

本文链接：https://blog.csdn.net/geeksongs/article/details/121122528

版权

本文介绍了seq2seq模型在自然语言处理中的应用，分析了传统seq2seq模型存在的问题，即hidden layer难以捕获整句信息。通过引入Attention机制，解决了分心模型的问题，使得模型能更关注关键输入。Attention机制通过计算dot product得到attention score，经过softmax转换为attention distribution，用于weighted sum计算attention output。这一过程反复进行，生成最终的翻译结果。

摘要由CSDN通过智能技术生成

一.seq2seq机制

传统的seq2seq机制在语言翻译当中使用了两个RNN，一个是encoder，将语言进行编码，另一个是decoder，将我们的得到的语言编码进行解码，解码的过程当中就可以对我们的语言进行翻译成另外一种语言。其机制如下所示：

当然这种机制了，就会出现一定的问题，比如说我们的一个hidden layer就需要捕捉到整句话的所有信息，但是实际上我们有些位于前面的一些信息可能就会有所遗漏，同样的，一些本来应该是比较重要的信息，可能模型觉得并没有那么重要。

例如输入的英文句子是：Tom chase Jerry，目标的翻译结果是：汤姆追逐杰瑞。在未考虑注意力机制的模型当中，模型认为 汤姆 这个词的翻译受到 Tom，chase 和 Jerry 这三个词的同权重的影响。但是实际上显然不应该是这样处理的，汤姆 这个词应该受到输入的 Tom 这个词的影响最大，而其它输入的词的影响则应该是非常小的。显然，在未考虑注意力机制的 Encoder-Decoder 模型中，这种不同输入的重要程度并没有体现处理，