LSTM变种-GRU网络结构

最新推荐文章于 2024-07-21 09:47:56 发布

一夜了

最新推荐文章于 2024-07-21 09:47:56 发布

阅读量4.4k

点赞数 7

分类专栏：机器学习及深度学习相关 NLP 文章标签： GRU LSTM NLP 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yiyele/article/details/80672554

版权

机器学习及深度学习相关同时被 2 个专栏收录

36 篇文章 7 订阅

订阅专栏

33 篇文章 11 订阅

订阅专栏

简介

GRU是LSTM的一种变体，其将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态，加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单，是非常流行的变体。
使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多，以至于Gradient归零或者成为无穷大，所以无法继续进行优化的问题。GRU的构造更简单：比LSTM少一个gate，这样就少几个矩阵乘法。在训练数据很大的情况下GRU能节省很多时间。

GRU模型

与LSTM不同，GRU只有两个门了，分别为更新门和重置门，即图中的 $z_t$ 和 $r_t$ 。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。
这里写图片描述

GRU训练

从前面的公式中可以看到需要学习的参数就是 $W_rW_zW_hW_o$ 那些权重参数，其中前三个权重都是拼接的，所以在学习时需要分割出来，即
这里写图片描述
输出层的输入 $y^i_t=W_oh，输出为y^o_t=σ(y^i_t)$ 。
设某时刻的损失函数为 $Et=1/2*(y_d−y^o_t)^2$ ，则某样本的损失为

与前面LSTM网络类似，最终可以推出

GRU与LSTM

这里写图片描述

参考资料：
https://blog.csdn.net/wangyangzhizhou/article/details/77332582
https://blog.csdn.net/lreaderl/article/details/78022724

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
11
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一夜了 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。