【深度学习】Attention机制理解与总结

最新推荐文章于 2024-10-07 15:26:05 发布

cookie_17

最新推荐文章于 2024-10-07 15:26:05 发布

阅读量1w

点赞数 5

分类专栏：深度学习

本文链接：https://blog.csdn.net/u012892939/article/details/79699525

版权

本文深入探讨了深度学习中的Attention Mechanism，包括其在RNN与CNN中的应用。Attention机制帮助模型关注输入的重要部分，提升模型的准确性，且不显著增加计算负担。在NLP的Encoder-Decoder框架和图像领域的CNN模型中，Attention机制表现出色，如Spatial和Channel Attention。Squeeze and Excitation Networks是Channel Attention的典型代表，而Spatial Transformer Networks则在物体识别中发挥作用。

摘要由CSDN通过智能技术生成

深度学习中Attention Mechanism详细介绍：原理、分类及应用
 目前主流的attention方法都有哪些？

Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重，抽取出更加关键及重要的信息，使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销，这也是Attention Mechanism应用如此广泛的原因。
之前在做知识库问答和阅读理解问答的研究中都用到了attention机制，效果确实比较显著（虽然减慢训练速度的效果也比较显著…）。在是谷歌发布论文Attention Is All You Need后，attention更是成为了一种普遍做法。后来发现在图像领域attention也有应用，在CNN上加attention感觉比较神奇，因此做一个小的总结。等读完这篇论文后，再来补充论文里的思想。