DeepLearning.ai学习笔记——改善深层神经网络:超参数调试、正则化以及优化(二)

本文介绍了深度学习中遇到的梯度消失和梯度爆炸问题,探讨了解决方法,如合适的权重初始化。针对神经网络权重初始化,推荐了ReLU和tanh函数的初始化策略。此外,文章还详细讲解了如何通过数值逼近和梯度检验来确保反向传播的正确实现,确保训练过程的准确性。
摘要由CSDN通过智能技术生成

1.梯度消失/梯度爆炸(Vanishing/Exploding gradients)
产生原因:在训练神经网络的时候,导数或者坡度会突变,这与深度网络中权重的设置或者层数的设置哟很大关系,权重过大或者过小会造成后续的激活函数指数级进行递减或者爆炸式增长。
解决办法:对于神经网络权重值进行初始化。
2.神经网络的权重初始化
设置某层的权重矩阵为w_[l] = np.random.randn(shape)*np.sqrt(1/n_{l-1}),n_[l-1]是第l-1层神经元的数量。
(1)若激活函数ReLU,则方差设置伪2/n,也可以是

2nl1 2 n ⌊ l − 1 ⌋

(2)tanh函数。方差设置为(Xavier)初始化

1nl1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值