如何将Attention机制加入到NLP应用中

主要参考tensorflow官网案例进行理解,帮助新人进行理解,也方便自己的查询记忆!

将Attention机制应用到NLP领域中

编码端

正常进行编码,attention机制主要是应用在解码端部分!
框架使用的是keras框架,虽然与tensorflow框架稍有不同,但是并不妨碍如何运用attention机制的理解!

解码端

在这里插入图片描述
attention计算定义,通过相应计算将编码端的输出、及隐藏状态投入进而生成状态向量context_vector,及attention_weights。
计算公式具体如下:在这里插入图片描述

在这里插入图片描述将解码器输入与context_vector通过tf.concat进行连接。意义在哪?放上这个图方便理解
在这里插入图片描述

GRU是LSTM的简化,运算代价更低。
生成的向量及权重中,貌似就只使用了向量,权重难道留着过年了????费解!
权重好像没啥用,官网说的用来后期制图,暂时搁置吧。。。以后继续更新

参考链接:https://www.tensorflow.org/tutorials/text/nmt_with_attention

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值