「深度学习」门控循环单元GRU

Sternstunden

已于 2024-02-04 15:58:53 修改

阅读量685

点赞数 9

分类专栏：深度学习文章标签：深度学习人工智能 gru 神经网络

于 2024-02-04 10:59:04 首次发布

本文链接：https://blog.csdn.net/qq_52063383/article/details/136022098

版权

5 篇文章 0 订阅

订阅专栏

一、梯度消失问题

梯度消失：

基础的 RNN 模型不善于处理长期依赖关系，有很多局部影响，很难调整自己前面的计算。y^{<i>} 仅仅受自己附近的值影响。
解决方法：GRU 或 LSTM
梯度爆炸：

反向传播时，随着层数增多，梯度不仅可能指数型下降，还有可能指数型上升 —— 会导致参数过大，网络崩溃

解决方法：梯度修剪 —— 观察梯度向量，若大于某个阈值，则放缩梯度向量，保证其不会过大

目的：使隐藏层更好地捕捉深层连接，改善梯度消失的问题

c = memory \space cell

c^{<t>} = a^{<t>}

核心思想 "门" - 决定什么时候更新：\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

u：“update”

\Gamma_{u} 介于0到1之间，大多数情况下非常接近0或1

sigmoid 激活函数:
关键部分：c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}

\Gamma_{u} = 1：将 c^{<t>} 更新为候选值

\Gamma_{u} = 0：保留原来的值