【自然语言处理】：seq2seq当中的Attention注意力机制

最新推荐文章于 2024-07-25 10:27:09 发布

Geeksongs

最新推荐文章于 2024-07-25 10:27:09 发布

阅读量520

点赞数 1

文章标签： nlp 自然语言处理深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Geeksongs/article/details/121122528

版权

一.seq2seq机制

传统的seq2seq机制在语言翻译当中使用了两个RNN，一个是encoder，将语言进行编码，另一个是decoder，将我们的得到的语言编码进行解码，解码的过程当中就可以对我们的语言进行翻译成另外一种语言。其机制如下所示：

当然这种机制了，就会出现一定的问题，比如说我们的一个hidden layer就需要捕捉到整句话的所有信息，但是实际上我们有些位于前面的一些信息可能就会有所遗漏，同样的，一些本来应该是比较重要的信息，可能模型觉得并没有那么重要。

例如输入的英文句子是：Tom chase Jerry，目标的翻译结果是：汤姆追逐杰瑞。在未考虑注意力机制的模型当中，模型认为 汤姆 这个词的翻译受到 Tom，chase 和 Jerry 这三个词的同权重的影响。但是实际上显然不应该是这样处理的，汤姆 这个词应该受到输入的 Tom 这个词的影响最大，而其它输入的词的影响则应该是非常小的。显然，在未考虑注意力机制的 Encoder-Decoder 模型中，这种不同输入的重要程度并没有体现处理，

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【自然语言处理】：seq2seq当中的Attention注意力机制

一.seq2seq机制传统的seq2seq机制在语言翻译当中使用了两个RNN，一个是encoder，将语言进行编码，另一个是decoder，将我们的得到的语言编码进行解码，解码的过程当中就可以对我们的语言进行翻译成另外一种语言。其机制如下所示：当然这种机制了，就会出现一定的问题，比如说我们的一个hidden layer就需要捕捉到整句话的所有信息，但是实际上我们有些位于前面的一些信息可能...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。