自然语言处理中的Attention原理和作用

最新推荐文章于 2024-03-19 11:30:52 发布

changdejie

最新推荐文章于 2024-03-19 11:30:52 发布

阅读量847

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/changdejie/article/details/90782040

版权

目前NLP三个大的进展，一个是分布式表示(词向量)，第二个是 LSTM(GRU),第三个就是attetion，这些技术在原来的基础上大大提升了nlp各项基础任务。

attetion究竟是什么呢。假设循环神经网络，每个时刻的输出 h1, h2, . . . , hn
attetion其实就是，循环神经网络hi的在每个时刻的权重αi。因为，原来我们在预测的时候，是把LSTM的最终的预测状态 Hn输出，作为神经网络最后的预测输入，这就要求循环神经网络压缩所有的信息到hn，而这是很难办到的，是目前循环神经网络导致瓶颈的主要原因。

所以attetion其实就是把 h1, h2, . . . , hn所有时刻的信息加上权重最终得到向量C，从而引入到后面的预测网络中。

其中α1的生成的公式如下。

其中g是一个以hi和w为输入，Θ为参数的函数。w可以是任务相关的，从训练中的来的向量。也可以是一个向量从解码器中获得的隐状态(翻译模型中常用)。g的形式一般是点积，双线性函数，或者一个隐层的MLP。

本文参考了陈丹琦博士论文，NEURAL READING COMPREHENSION AND BEYOND

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理中的Attention原理和作用

目前NLP三个大的进展，一个是分布式表示(词向量)，第二个是 LSTM(GRU),第三个就是attetion，这些技术在原来的基础上大大提升了nlp各项基础任务。attetion究竟是什么呢。假设循环神经网络，每个时刻的输出h1,h2, . . . ,hnattetion其实就是，循环神经网络hi的在每个时刻的权重αi。因为，原来我们在预测的时候，是把LSTM的最终的预测状态 Hn输出...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。