DeepLearning.ai学习笔记——改善深层神经网络：超参数调试、正则化以及优化（二）

笑逐燕开

于 2018-08-02 16:13:36 发布

阅读量253

点赞数

分类专栏：机器学习文章标签：梯度检验深度神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vivizhangyan/article/details/81222317

版权

本文介绍了深度学习中遇到的梯度消失和梯度爆炸问题，探讨了解决方法，如合适的权重初始化。针对神经网络权重初始化，推荐了ReLU和tanh函数的初始化策略。此外，文章还详细讲解了如何通过数值逼近和梯度检验来确保反向传播的正确实现，确保训练过程的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.梯度消失/梯度爆炸(Vanishing/Exploding gradients)
产生原因：在训练神经网络的时候，导数或者坡度会突变，这与深度网络中权重的设置或者层数的设置哟很大关系，权重过大或者过小会造成后续的激活函数指数级进行递减或者爆炸式增长。
解决办法：对于神经网络权重值进行初始化。
2.神经网络的权重初始化
设置某层的权重矩阵为w_[l] = np.random.randn(shape)*np.sqrt(1/n_{l-1}),n_[l-1]是第l-1层神经元的数量。
(1）若激活函数ReLU,则方差设置伪2/n,也可以是

2 n ⌊ l - 1 ⌋ - - - - - \sqrt

$\sqrt {\frac{2}{{{n^{\left\lfloor {l - 1} \right\rfloor }}}}}$

(2)tanh函数。方差设置为(Xavier)初始化

1 n ⌊ l - 1 ⌋

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。