面试——为什么要在循环神经网络中引入门控机制？

最新推荐文章于 2023-12-18 16:27:06 发布

做程序员的第一天

最新推荐文章于 2023-12-18 16:27:06 发布

阅读量98

点赞数

分类专栏：面试文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48241022/article/details/132390806

版权

面试专栏收录该内容

3 篇文章 0 订阅

订阅专栏

引入门控机制是为了缓解循环神经网络中的长期依赖问题。

回顾一下，如果 t 时刻的预测 y 依赖于 t-k 时刻的输入 x，当时间间隔 k 比较大时，容易出现梯度消失或梯度爆炸的问题，那么循环神经网络就难以学习到如此久远的输入信息。在这种情况下，当目前的预测又需要用到比较久远的信息时，就会出现长期依赖问题。

但是如果我们为了学习到非常久远的信息，而把所有过去时刻输入的信息都存储起来的话，会造成隐状态 h 上存储信息的饱和与重要信息的丢失。为此，一种比较好的方案是引入门控机制来控制信息的累积速度，包括有选择的加入新信息，并有选择地遗忘之前积累的信息。这一类网络称为基于门控的循环神经网络（Gated RNN）。比较经典的基于门控的循环神经网络有长短期记忆网络（LSTM）和门控循环单元网络（GRU）。

做程序员的第一天

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
面试——为什么要在循环神经网络中引入门控机制？

但是如果我们为了学习到非常久远的信息，而把所有过去时刻输入的信息都存储起来的话，会造成隐状态 h 上存储信息的饱和与重要信息的丢失。为此，一种比较好的方案是引入门控机制来控制信息的累积速度，包括有选择的加入新信息，并有选择地遗忘之前积累的信息。回顾一下，如果 t 时刻的预测 y 依赖于 t-k 时刻的输入 x，当时间间隔 k 比较大时，容易出现梯度消失或梯度爆炸的问题，那么循环神经网络就难以学习到如此久远的输入信息。在这种情况下，当目前的预测又需要用到比较久远的信息时，就会出现长期依赖问题。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。