(李沐DL)数值优化

神经网络的梯度
梯度 --》求偏导
向量对于向量的导数都是矩阵
梯度爆炸:梯度都是比一大的数
对于学习率敏感
学习率太大 大参数值 更多的梯度
如果学习率太小-》训练无进展

梯度消失:梯度小于一时
梯度值变成0 对于16为浮点数尤为严重
训练没有进展,不管如何选择学习率
对于底部尤为严重仅仅顶部训练的较好
无法让神经网络更深
数值过大或者过小都会导致数值问题
会对n个数累乘

sigmoid
relu = max(x,0)

让训练更加稳定
目标是让梯度值在合理的范围内 【1e-6,1e3】
将乘法变加法
归一化,梯度裁剪
合理的权重初始和激活函数

权重初始化,在合理值区间里随机初始参数
#xavier 是常用权重的初始化方法
#kaiming初始化也是一个初始化方法
初始化对后面影响也不是很大

选取激活函数提升数值稳定性
准确率在50%左右权重参数有大问题不是单单能调整lr能解决的
nan一般是梯度爆炸

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值