深度学习attention原理_深度学习系列——attention机制与应用

最新推荐文章于 2024-11-27 20:43:20 发布

战导

最新推荐文章于 2024-11-27 20:43:20 发布

阅读量935

点赞数

文章标签：深度学习attention原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33692177/article/details/112834882

版权

本文详细介绍了注意力机制在深度学习中的应用，从起源、原理到Self-Attention和Multi-Head Attention的实现，以及在Transformer结构中的作用。此外，还提到了Attention在CV和NLP领域的具体应用，如BERT和OCR问题。

摘要由CSDN通过智能技术生成

本文介绍attention起源+原理和一些应用

一、简介

Attention机制通俗的讲就是把注意力集中放在重要的点上，而忽略其他不重要的因素。关于这个的解释个人感觉计算机视觉比NLP根据有直接的解释性。

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点。然后对这一区域投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息。

NLP领域中较早的应该是Encoder-Decoder框架下的attention在机器翻译中得到较好的应用效果。但实际上机器翻译算法还是一般被学术界偏爱，工业界其实所覆盖的面还不算广。真正令attention在NLP中大火并在各个子领域得到应用的还是《attention is all you need》这篇文章提出的方法，应在之后应用于NLP大规模两段式模型中并陆续突破达到新的sota效果。attention model示意图

二、attention

关于 hard attention计算方式无非是在decode前面加一个权重矩阵。但不同于随机矩阵来训练权重，这里是采用了前向网络的输出来进行attention权重矩阵计算，并加入训练。

三、Self-AttentionScaled D

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。