attention 机制

注意力机制受到人类观察时关注重点的启发,最初在图像领域提出,后来在NLP中广泛应用于机器翻译任务,解决长序列表示问题。attention机制包括查询与键值对的相似度计算、权重归一化等步骤,分为点积、一般、连接、感知机等多种形式。软注意力考虑所有信息,而硬注意力选择特定信息。全局注意力考虑所有历史信息,局部注意力仅关注部分窗口。该机制已用于机器翻译、关系分类、文本分类、自然语言推断和阅读理解等任务。
摘要由CSDN通过智能技术生成

motivation

attention 机制最早是在图像领域提出来的,它受人类在观察事物时会重点关注某一部分而不是全部的启发。attention 机制最早应用在nlp领域中是在机器翻译任务上。机器翻译任务是一个经典的序列到序列的任务,在机器翻译中seq2seq是一个非常热门的模型,主要包括encoder和decoder 两个部分:encoder将输入表示成一个固定长度的向量,解码器根据encoder的输出向量解码出序列。这里存在一个问题:无论输入序列的长度为多长,都输出一个固定长度的向量,解码器受限于这个固定长度的向量,尤其是当序列长度较长时,并不能得到一个很好的向量表示,因此提出了atttention机制

attention机制的形式

attention 形式上包括两部分:查询(query)和一组键值对(key-value)
在这里插入图片描述
attention 的计算过程:

  1. 计算查询query与键key的相似度,计算相似度的方法包括点积、拼接以及使用感知机
  2. 使用softmax函数进行归一化,计算得到权重
  3. 对value值使用步骤2中计算得到的权重进行加权求和
    注:在nlp领域很多时候key和value 是一样的

attention的种类

计算查询query与键key的相似度可以有不同的方式:点积形式、一般形式、连接形式、感知机形式
在这里插入图片描述
soft-attention 与 hard-attention
soft-attention 是给每个单词与当前词match赋予一个概率或者说权重,而hard-attention是在序列中找到一个特定单词与当前词进行对齐,而其他的单词与当前词对齐的概率为0

global-attention 与 local-attention
Soft attention 每次对齐的时候都要考虑前面的encoder的所有 h i h_i h

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值