自然语言处理中的注意力机制是干什么的？

最新推荐文章于 2024-08-15 20:42:08 发布

熊野君

最新推荐文章于 2024-08-15 20:42:08 发布

阅读量2.4k

点赞数

分类专栏：数据技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ch1209498273/article/details/78523381

版权

数据技术专栏收录该内容

38 篇文章 3 订阅

订阅专栏

谈神经网络中注意力机制的论文和博客都不少，但很多人还是不知道从哪看起。于是，在国外问答网站Quora上就有了这个问题：如何在自然语言处理中引入注意力机制？

技术主管Nikhil Dandekar做出了一个简要的回答：

概括地说，在神经网络实现预测任务时，引入注意力机制能使训练重点集中在输入数据的相关部分，忽略无关部分。

注意力是指人的心理活动指向和集中于某种事物的能力。比如说，你将很长的一句话人工从一种语言翻译到另一种语言，在任何时候，你最关注的都是当时正在翻译的词或短语，与它在句子中的位置无关。在神经网络中引入注意力机制，就让它也学会了人类这种做法。

注意力机制最经常被用于序列转换（Seq-to-Seq）模型中。如果不引入注意力机制，模型只能以单个隐藏状态单元，如下图中的S，去捕获整个输入序列的本质信息。这种方法在实际应用中效果很差，而且输入序列越长，这个问题就越糟糕。

图1：仅用单个S单元连接的序列转换模型

注意力机制在解码器（Decoder）运行的每个阶段中，通过回顾输入序列，来增强该模型效果。解码器的输出不仅取决于解码器最终的状态单元，还取决于所有输入状态的加权组合。

图2：引入注意力机制的序列转换模型

注意力机制的引入增加了网络结构的复杂性，其作为标准训练模型时的一部分，通过反向传播进行学习。这在网络中添加模块就能实现，不需要定义函数等操作。

下图的例子，是将英语翻译成法语。在输出翻译的过程中，你可以看到该网络“注意”到输入序列的不同部分。

图3：翻译网络示意图

由于英语和法语语序比较一致，从网络示意图可以看出，除了在把短语“European Economic Zone(欧洲经济区)”翻译成法语“zone économique européenne”时，网络线有部分交叉，在大多数时，解码器都是按照顺序来“注意”单词的。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

熊野君 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。