注意力机制到底是什么——基于常识的基本结构介绍

摘要:注意力机制(Attention Mechanism)是人们在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小。本文以一个基于注意力机制的机器翻译模型为例,从人的直觉、中英文翻译的常识、特征工程等角度,对注意力机制的思想和机理进行了阐述;并介绍了一种常见的注意力机制实现形式,即基于感知机的注意力机制;还介绍了一种比较经典的注意力机制,即自注意力机制(self-attention)。

1引言

注意力机制是上世纪九十年代,一些科学家在研究人类视觉时,发现的一种信号处理机制。人工智能领域的从业者把这种机制引入到一些模型里,并取得了成功。目前,注意力机制已经成为深度学习领域,尤其是自然语言处理领域,应用最广泛的“组件”之一。这两年曝光度极高的BERT、GPT、Transformer等等模型或结构,都采用了注意力机制。

由于对计算机视觉领域不是很熟,我在学习和整理注意力机制相关内容的时候,采用了注意力机制的思想:基本忽略CV相关内容,主要精力放在NLP方面。因此,本文基本不涉及CV同志们的工作。

2认知科学、特征工程与注意力机制

“注意力机制”是上个世纪90年代,认知科学领域的学者发现的一个人类处理信息时采用的机制。我们做数据科学类任务时,经常做的特征工程,看起来很像一个模型外挂的注意力模块。

2.1人身上的注意力机制

假设我和老婆在超市里买菜。由于超市里的情况如图1-1所示,我需要时不时地从人海里找到买了跳刀的老婆。我的眼睛真厉害,可以看到这么多东西,视线范围内所有事物的形状、颜色、纹路等等全都接收进来——大脑表示压力很大,实在处理不过来,于是选择忽略一部分信号,重点看每一个人的发型、衣服颜色、站姿等,而且重点分析靠近视线范围中心的区域。我转动脑袋,帮助眼睛扫描更大的范围,从而帮助大脑分析更多的人,终于找到了目标。

图2‑1 环境噪声较大

 

像我这样,有选择性的处理信号,是包括人类在内的很多生物在处理外界信号时的策略,其背后的机制被认知科学领域的学者称为“注意力机制”。

2.2特征工程——模型外部的注意力机制

我们在用机器学习模型完成情感分析这类任务时,通常会做一点特征工程的工作,即将原始文本转换为数值向量。特征工程,就是注意力机制在数据科学领域里的一种体现,它帮助模型选择有效、适当规模的特征,进而让模型可以有效、高效地完成任务。比如说,我们用逐步回归分析方法对原始特征集进行筛选,得到一个高质量的特征子集,就可以让下游模型聚焦于和任务关系最密切的信号。

2‑2 特征工程的作用

 

良好的特征工程,依赖于工程师对业务内容的深入理解。换句话说,数据科学从业者要花一定量的时间,用于了解研究对象。研究对象千千万,留给我们了解的时间不多了。

传统特征工程采用了一种静态的观点来观察事物。我了解的特征工程方法,都假设各个特征的重要性是固定不变的的——特征工程结束的时候,每个特征就被赋予了一个固定的权重值。(应该是)大部分机器学习模型,也假设输入数据的各个维度具有固定的权重,学习完毕后,就不再改变各个维度的权重了。

2.3传统特征工程不能解决的问题

然而&

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值