Attention机制

最新推荐文章于 2024-11-07 14:05:19 发布

Dongxue_NLP

最新推荐文章于 2024-11-07 14:05:19 发布

阅读量170

点赞数

文章标签：人工智能深度学习 pytorch 自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dongxueb/article/details/124151357

版权

但是Encoder-Decoder框架会有一个明显的缺点，Encoder会把输入句子X编码为一个固定长度的隐向量（语义编码c），会导致隐向量无法完全表示输入句子X的信息。可以从两个方面理解，1.隐向量的大小有限，无法表示语义丰富的句子，2.由于RNN类网络特点，网络会更加看中句子后面的信息，无法总揽全局。

最简单的解决思路就是把所有RNNcell的输出组合起来使用，而不只使用最后一个RNNcell的输出，这个可以做到充分利用句子信息，可以一定程度解决问题。但是一般越明确的网络学习目标可以获得越好的效果，如果可以获得每个RNNcell的输出的权重来加权编码，就可以更加明确学习目标提升学习效果。Attention Model的思路就是如此。

如何设计网络，进行加权操作，并且使用合理的loss就是Attention Model的重难点，也是我们要学习理解的内容了。请继续往下看。。

5.Attention机制的本质思想
如果把Attention机制从上文讲述例子中的Encoder-Decoder框架中剥离，并进一步做抽象，可以更容易看懂Attention机制的本质思想。

链接：

Attention机制总结
关于attention机制的三种总结，第一次看有点启发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。