注意力机制

最新推荐文章于 2024-07-26 13:24:37 发布

大米米111

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量48

点赞数

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cccjp1999/article/details/134948318

版权

注意力机制（attention mechanism) 从本质上讲和人类的选择性视觉注意力机制类似，核心目标是从众多信息中选择出对当前任务目标更关键的信息。

RNN本身的梯度消失问题，对于较长的句子，很难希望讲输入的序列转化为定长的向量而保留所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。

这个结构得到的hidden vector虽然包括了整句话的全部信息，但是这个全部信息具有局部依赖性即对越近的句子hidden vector贡献越大，很多时候hidden vector其实只学到了每句话最后几个词的信息。同时，不支持并行计算，训练起来很慢，每个词向量对应的导数依赖后续的词的导数，这样递归求导是梯度消失的主要原因。

关键的操作是计算encoder和decoder state之间的关联性的权重，得到attention 的分布，从而对当前输出位置得到比较重要的输入位置的权重，在预测输出时相应的会占较大的比重。

概念上理解就是，把attention理解为从大量信息中有选择的筛选出少量重要信息并聚焦到这些重要信息中，忽略大多不重要的信息。权重越大越聚焦其对应的value值上，即权重代表了信息的重要性，而value是其对应的信息。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
注意力机制

同时，不支持并行计算，训练起来很慢，每个词向量对应的导数依赖后续的词的导数，这样递归求导是梯度消失的主要原因。关键的操作是计算encoder和decoder state之间的关联性的权重，得到attention 的分布，从而对当前输出位置得到比较重要的输入位置的权重，在预测输出时相应的会占较大的比重。RNN本身的梯度消失问题，对于较长的句子，很难希望讲输入的序列转化为定长的向量而保留所有的有效信息，所以随着所需翻译句子的长度的增加，这种结构的效果会显著下降。
复制链接

扫一扫

大米米111

CSDN认证博客专家 CSDN认证企业博客

码龄3年

23: 原创

48万+: 周排名

10万+: 总排名

4442: 访问

: 等级

276: 积分

22: 粉丝

37: 获赞

3: 评论

26: 收藏

私信

关注

热门文章

最新评论

#copulas包python实现。利用极大似然法估计ABCD四个序列的建立D-Vine copula函数，并利用A和D的联合分布，计算A+D的估计区间。
Zz154639: 您好，请问第4行的import DVine是不是弄错了，copulas.multivariate里没有DVine这个函数，而是VineCopula
CNN与VIT
CSDN-Ada助手: 恭喜你写了第9篇博客！标题中提到的CNN与VIT是非常有趣的主题。你的持续创作真是令人钦佩。我很喜欢你对这两种算法的比较，它们在计算机视觉中的应用非常广泛。接下来，我建议你可以探索更多类似的深度学习算法，例如RNN或GAN，以拓宽你的知识领域。期待你的下一篇博客！
强制教学teacher forcing
CSDN-Ada助手: 恭喜您写了关于“强制教学teacher forcing”的第8篇博客！持续创作是一种难能可贵的品质，您的坚持让读者们受益匪浅。对于下一步的创作建议，或许可以加入一些实例或案例分析，以便更好地帮助读者理解和应用“强制教学teacher forcing”的概念。同时，您也可以继续探索相关主题的深度，将其与其他教学方法进行比较，从而拓宽读者的视野。期待您在未来的博客中继续分享有价值的知识和见解！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。