rnn 梯度消失爆炸

最新推荐文章于 2024-03-25 21:27:19 发布

007在学算法

最新推荐文章于 2024-03-25 21:27:19 发布

阅读量103

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hvgdfx/article/details/114526168

版权

本文深入探讨了深度学习中常见的梯度消失和梯度爆炸问题，解释了其数学原理，并详细推导了循环神经网络（RNN）的正向传播过程和损失函数。此外，还介绍了在训练RNN时如何计算损失函数的导数，为理解深度学习优化提供了关键洞察。

摘要由CSDN通过智能技术生成

文章目录

- 梯度消失和爆炸原理
- - 求导知识
  - RNN推导

梯度消失和爆炸原理

求导知识

$y = x^2$

$\mathrm{d} {y}$ 导数

$\Large \frac {\mathcal{d} {y}} {\mathcal{d}{x}}$ 偏导

RNN推导

正向传播：

$a_t=w_xx_t + w_hh_{t-1} + b_t$

$h_t = \sigma(a_t)$

$\hat{y} =softmax(w_yh_t+b_y)$

定义loss：
用logloss，TODO：多分类的logloss为啥是下面的格式？为啥不是 $\sum[-ylog(\hat{y})-(1-y)log(1-\hat{y})]$

$\mathcal{L} = \displaystyle\sum_{i=1}^{n}-y_ilog(\hat{y_i})$

$\Large \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}w_t} = \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}a_t} \frac{\mathrm{d}a_t} {\mathrm{d}w_t}= \frac {\mathrm{d}\mathcal{L}} {\mathrm{d}a_t}$

参考1
参考2
参考3

007在学算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。