注意力机制到底是什么——基于常识的基本结构介绍

最新推荐文章于 2024-01-31 17:25:50 发布

lipengyuer

最新推荐文章于 2024-01-31 17:25:50 发布

阅读量4.7k

点赞数 7

分类专栏：自然语言处理深度学习文章标签： nlp 自然语言处理神经网络深度学习

本文链接：https://blog.csdn.net/lipengyuer/article/details/105821617

版权

摘要:注意力机制(Attention Mechanism)是人们在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。本文以一个基于注意力机制的机器翻译模型为例，从人的直觉、中英文翻译的常识、特征工程等角度，对注意力机制的思想和机理进行了阐述；并介绍了一种常见的注意力机制实现形式，即基于感知机的注意力机制；还介绍了一种比较经典的注意力机制，即自注意力机制(self-attention)。

1引言

注意力机制是上世纪九十年代，一些科学家在研究人类视觉时，发现的一种信号处理机制。人工智能领域的从业者把这种机制引入到一些模型里，并取得了成功。目前，注意力机制已经成为深度学习领域，尤其是自然语言处理领域，应用最广泛的“组件”之一。这两年曝光度极高的BERT、GPT、Transformer等等模型或结构，都采用了注意力机制。

由于对计算机视觉领域不是很熟，我在学习和整理注意力机制相关内容的时候，采用了注意力机制的思想:基本忽略CV相关内容，主要精力放在NLP方面。因此，本文基本不涉及CV同志们的工作。

2认知科学、特征工程与注意力机制

“注意力机制”是上个世纪90年代，认知科学领域的学者发现的一个人类处理信息时采用的机制。我们做数据科学类任务时，经常做的特征工程，看起来很像一个模型外挂的注意力模块。

2.1人身上的注意力机制

假设我和老婆在超市里买菜。由于超市里的情况如图1-1所示，我需要时不时地从人海里找到买了跳刀的老婆。我的眼睛真厉害，可以看到这么多东西，视线范围内所有事物的形状、颜色、纹路等等全都接收进来——大脑表示压力很大，实在处理不过来，于是选择忽略一部分信号，重点看每一个人的发型、衣服颜色、站姿等，而且重点分析靠近视线范围中心的区域。我转动脑袋，帮助眼睛扫描更大的范围，从而帮助大脑分析更多的人，终于找到了目标。

像我这样，有选择性的处理信号，是包括人类在内的很多生物在处理外界信号时的策略，其背后的机制被认知科学领域的学者称为“注意力机制”。

2.2特征工程——模型外部的注意力机制

我们在用机器学习模型完成情感分析这类任务时，通常会做一点特征工程的工作，即将原始文本转换为数值向量。特征工程，就是注意力机制在数据科学领域里的一种体现，它帮助模型选择有效、适当规模的特征，进而让模型可以有效、高效地完成任务。比如说，我们用逐步回归分析方法对原始特征集进行筛选，得到一个高质量的特征子集，就可以让下游模型聚焦于和任务关系最密切的信号。

良好的特征工程，依赖于工程师对业务内容的深入理解。换句话说，数据科学从业者要花一定量的时间，用于了解研究对象。研究对象千千万，留给我们了解的时间不多了。

传统特征工程采用了一种静态的观点来观察事物。我了解的特征工程方法，都假设各个特征的重要性是固定不变的的——特征工程结束的时候，每个特征就被赋予了一个固定的权重值。(应该是)大部分机器学习模型，也假设输入数据的各个维度具有固定的权重，学习完毕后，就不再改变各个维度的权重了。

2.3传统特征工程不能解决的问题

然而&

最低0.47元/天解锁文章

lipengyuer

关注

7
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
注意力机制到底是什么——基于常识的基本结构介绍

摘要:注意力机制(Attention Mechanism)是人们在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。本文以一个基于注意力机制的机器翻译模型为例，从人的直觉、中英文翻译的常识、特征工程等角度，对注意力机制的思想和机理进行了阐述；并介绍了一种常见的注意力机制实现形式，即基于感知机的注意力机制；还介绍了一种比较经典的注意力机制，即自注意力机制(self-a...
复制链接

扫一扫