GRU网络

最新推荐文章于 2024-05-19 20:44:28 发布

纸上得来终觉浅～

最新推荐文章于 2024-05-19 20:44:28 发布

阅读量8.1k

点赞数 9

分类专栏：深度学习文章标签： gru

原文链接：https://www.cnblogs.com/jiangxinyang/p/9376021.html

版权

深度学习专栏收录该内容

79 篇文章 9 订阅

订阅专栏

1、简介

随着 LSTM 在自然语言处理特别是文本分类任务的广泛应用，人们逐渐发现 LSTM 具有训练时间长、参数较多、内部计算复杂的缺点。Cho 等人在 2014 年进一步提出了更加简单的、将 LSTM 的单元状态和隐层状态进行合并的、还有一些其他的变动的 GRU 模型。将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态。GRU把LSTM中的遗忘门和输入们用更新门来替代。把cell state和隐状态ht进行合并，在计算当前时刻新信息的方法和LSTM有所不同。

GRU 模型是一种保持了 LSTM 效果、具有更加简单的结构、更少的参数、更好的收敛性的模型。GRU 模型由更新门和重置门两个门组成。

2、更新门和重置门

前一个时刻的输出隐层对当前隐层的影响程度由更新门控制，更新门的值越大说明前一时刻的隐层输出对当前隐层的影响越大；

前一时刻的隐层信息被忽略的程度由重置门控制，重置门的值越小说明忽略得越多。 GRU 结构更加精简，

使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多，以至于Gradient归零或者成为无穷大，所以无法继续进行优化的问题。GRU的构造更简单：比LSTM少一个gate，这样就少几个矩阵乘法。在训练数据很大的情况下GRU能节省很多时间。GRU ，简便了计算方法（简化运算），也避免了梯度消失优化LSTM。

3、GRU模型

与LSTM不同，GRU只有两个门了，分别为更新门和重置门，即图中的zt和rt。

更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。

重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

4、前向传播

5、GRU的训练过程

从前向传播过程中的公式可以看出要学习的参数有Wr、Wz、Wh、Wo。其中前三个参数都是拼接的（因为后先的向量也是拼接的），所以在训练的过程中需要将他们分割出来：

　　　　

　　　　

　　　　

输出层的输入：

　　　　

输出层的输出：

　　　　

在得到最终的输出后，就可以写出网络传递的损失，单个样本某时刻的损失为：

　　　　

则单个样本的在所有时刻的损失为：

　　　　

采用后向误差传播算法来学习网络，所以先得求损失函数对各参数的偏导（总共有7个）：

　　　　

　　　　

　　　　

　　　　

　　　　

　　　　

　　　　

其中各中间参数为：

　　　　

　　　　

　　　　

　　　　

　　　　

在算出了对各参数的偏导之后，就可以更新参数，依次迭代知道损失收敛。

概括来说，LSTM和CRU都是通过各种门函数来将重要特征保留下来，这样就保证了在long-term传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数，因此在参数的数量上也是要少于LSTM的，所以整体上GRU的训练速度要快于LSTM的。不过对于两个网络的好坏还是得看具体的应用场景。

参考文章：

https://blog.csdn.net/qq_40900196/article/details/88997049

https://www.cnblogs.com/jiangxinyang/p/9376021.html

纸上得来终觉浅～

关注

9
点赞
踩
64

收藏

觉得还不错? 一键收藏
0
评论
GRU网络

1、简介随着 LSTM 在自然语言处理特别是文本分类任务的广泛应用，人们逐渐发现 LSTM 具有训练时间长、参数较多、内部计算复杂的缺点。Cho 等人在 2014 年进一步提出了更加简单的、将 LSTM 的单元状态和隐层状态进行合并的、还有一些其他的变动的 GRU 模型。将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态。GRU把LSTM中的遗忘门和输入们用更新门来替...
复制链接

扫一扫

专栏目录

纸上得来终觉浅～ CSDN认证博客专家 CSDN认证企业博客

码龄9年

151: 原创

17万+: 周排名

84万+: 总排名

87万+: 访问

: 等级

8576: 积分

212: 粉丝

578: 获赞

116: 评论

3234: 收藏

私信

关注

热门文章

分类专栏

语音识别 52篇
linux 3篇
工作
传统图像处理 13篇
数学 4篇
java 40篇
数据结构与算法 14篇
keras 2篇
ocr 2篇
图像处理 56篇
python 15篇
tensorflow 24篇
深度学习 79篇
机器学习 44篇
pandas 1篇
Kaggle 2篇
paper阅读 21篇
其他 39篇

最新评论

基于Kaldi+GStreamer搭建线上的实时语音识别器
m0_75126569: 和你一样
基于Kaldi+GStreamer搭建线上的实时语音识别器
m0_75126569: root@ubuntu:~/kaldi/kaldi-gstreamer-server/test/models# ./download-tedlium-nnet2.sh % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0 0 0 0 0 0 --:--:-- 0:00:20 --:--:-- 0curl: (7) Failed to connect to phon.ioc.ee port 443: Connection refused gzip: stdin: unexpected end of file tar: Child returned status 1 tar: Error is not recoverable: exiting now
基于Kaldi+GStreamer搭建线上的实时语音识别器
小萌新Z: ot@zpq-virtual-machine:/home/zpq/桌面/kaldi-gstreamer-server/test/models# ./download-tedlium-nnet2.sh % Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0 0 0 0 0 0 --:--:-- 0:00:21 --:--:-- 0 curl: (7) Failed to connect to phon.ioc.ee port 8080 after 21352 ms: 连接被拒绝这是什么问题
语义分割算法Mask RCNN论文解读
惑许414: Traceback (most recent call last): File "D:/A_mask/mask R_CNN/Mask_RCNN-master/mrcnn/parallel_model.py", line 160, in <module> model = ParallelModel(model, GPU_COUNT) File "D:/A_mask/mask R_CNN/Mask_RCNN-master/mrcnn/parallel_model.py", line 38, in __init__ merged_outputs = self.make_parallel() File "D:/A_mask/mask R_CNN/Mask_RCNN-master/mrcnn/parallel_model.py", line 62, in make_parallel for name, x in zip(self.inner_model.input_names, AttributeError: 'Model' object has no attribute 'input_names' 怎么解决呢请问
python归一化和反归一化
名字都被注册了: 赞同！我的理解是，归一化的数据中每行元素是一个样本，那么每列元素就是不同样本的同一特征。归一化中用到的最大值和最小值是同一特征的。那么最后反归一化的的是n行1列，而不是1行n列，也就是所有样本的y值。这个问题困扰了我很久，希望能对有同样困扰的朋友一些帮助

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。