Text Understanding with the Attention Sum Reader Network

最新推荐文章于 2022-01-07 14:25:42 发布

lainegates

最新推荐文章于 2022-01-07 14:25:42 发布

阅读量616

点赞数

分类专栏： # tensorflow 深度学习文章标签： attention sum tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LaineGates/article/details/79240232

版权

深度学习同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

关键词

Bi-GRU, Bi-LSTM, attention sum

来源

arXiv 2016.03.04 (published at ACL 2016)

问题

使用带attention的深度模型解决完型填空问题

技术细节

模型比attentive reader简单，分以下几步：

使用双向GRU/LSTM单元计算docment每个词的拼接词向量doc_endcoer
使用双向GRU/LSTM单元计算query正向尾词和反向首词的拼接词向量query_endcoer
计算doc_endcoer和query_endcoer的乘积，获得attention_res，并softmax(以保证值为正)
将attention_res中备选词的attention分别累和（论文的关键所在，成为之后完型填空的深度模型的必备结构）
计算交叉熵并更新梯度
如图：

模型实现关键点

由于document长，大约600+/700+，有极个别更长的，这就导致之后训练时document的gradients很大，占用很多内存，笔者的11G显存经常报不够用。所以document长度700内就够了，batch_size设32基本就到极限了
计算准确率时，要计算本epoch内累积准确，而不能以batch为单位，否则会出现准确不断跳动的情况，让人以为训练有错
第5步计算交叉熵时，不能再计算第二次softmax，要计算normalize；即假设第4步输出为 $outputs$ ，那么 $y p r e d i c t = o u t p u t s / \sum (o u t p u t s)$ $y_{predict}=outputs/\sum(outputs)$ $c r o s s E n t r o p y = - \sum (y * t f . l o g (y p r e d i c t))$ $crossEntropy=-\sum(y*tf.log(y_{predict}))$
因为第3步计算attention_res已经是softmax过的，其内所有值都属于 $[0,1)$ ，document长度为700左右，每个值大约都是千分之几到百分之几，这些数再softmax之后，基本成了平均数，比如 $e^{0.005}\approx1.004$ 。

实现代码

Theano版本
 tensorflow版本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Text Understanding with the Attention Sum Reader Network

关键词Bi-GRU, Bi-LSTM, attention sum来源arXiv 2016.03.04 (published at ACL 2016)问题使用带attention的深度模型解决完型填空问题技术细节模型比attentive reader简单，分以下几步：使用双向GRU/LSTM单元计算docment每个词的拼接词向量doc_endcoer
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。