自然语言处理中的Attention原理和作用

目前NLP三个大的进展,一个是分布式表示(词向量),第二个是 LSTM(GRU),第三个就是attetion,这些技术在原来的基础上大大提升了nlp各项基础任务。

attetion究竟是什么呢。假设循环神经网络,每个时刻的输出 h1, h2, . . . , hn
attetion其实就是,循环神经网络hi的在每个时刻的权重αi。因为,原来我们在预测的时候,是把LSTM的最终的预测状态 Hn输出,作为神经网络最后的预测输入,这就要求循环神经网络压缩所有的信息到hn,而这是很难办到的,是目前循环神经网络导致瓶颈的主要原因。

所以attetion其实就是把 h1, h2, . . . , hn所有时刻的信息加上权重最终得到向量C,从而引入到后面的预测网络中。

其中α1的生成的公式如下。

 

其中g是一个以hi和w为输入,Θ为参数的函数。w可以是任务相关的,从训练中的来的向量。也可以是一个向量从解码器中获得的隐状态(翻译模型中常用)。g的形式一般是点积,双线性函数,或者一个隐层的MLP。

 

本文参考了 陈丹琦博士论文,NEURAL READING COMPREHENSION AND BEYOND

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值