人工神经网络笔记(二)梯度爆炸与消失、批量归一化、过拟合问题

本文探讨了深度学习中遇到的梯度爆炸和消失问题,以及对应的解决方案,如权重初始化的Xavier和He方法。还介绍了批量归一化在解决不同批量数据分布问题上的作用,并讨论了过拟合的概念及其预防措施,包括正则化和Dropout策略。
摘要由CSDN通过智能技术生成

人工神经网络笔记(二)梯度爆炸与消失、批量归一化、过拟合问题

  • Gradient exploding and vanishing
  • Mini-batch issue
  • Over-fitting issue
1、Gradient exploding and vanishing

1.1 模型训练过程

STEP0: 预设超参数

STEP1: 初始化模型参数

STEP2: 重复训练过程(次数为epoch)

STEP3: 保存模型

1.2 梯度爆炸与消失问题

在这里插入图片描述
在上图这个简单的神经网络模型中,由链式法则推导, ∂ l ∂ w 1 = ∂ l ∂ h l ( ∂ h l ∂ u l ∂ u l ∂ h l − 1 ) . . . . . . ( ∂ h 1 ∂ u 1 ∂ u 1 ∂ w 1 ) = ∂ l ∂ h l ( g ′ ( u l ) w l ) . . . . . . ( g ′ ( u 1 ) x ) \frac{\partial l}{\partial w_1}=\frac{\partial l}{\partial h_l}(\frac{\partial h_l}{\partial u_l}\frac{\partial u_l}{\partial h_{l-1}})......(\frac{\partial h_1}{\partial u_1}\frac{\partial u_1}{\partial w_1})=\frac{\partial l}{\partial h_l}(g^{'}(u_l)w_l)......(g^{'}(u_1)x) w1l=hll(ulhlhl1ul)......(u1h1w1u1)=hll(g(ul)wl)......(g(u1)x)

g ′ ( u i ) w i > 1 g^{'}(u_i)w_i>1 g(ui)wi>1恒成立,那么 ∣ ∂ l ∂ w 1 ∣ > > 1 |\frac{\partial l}{\partial w_1}| >>1 w1l>>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值