当层数过多时候,梯度是累乘关系,如100 最后可能超过f16精度
梯度爆炸 后面梯度和权重值特别大
梯度消失 后台梯度和权重趋近于0
梯度合理范围e-6 到 e3
优化方法
1、优化点 乘法改为加法
resnet lstm
2、归一
梯度归一,大于小于阈值裁剪
3、合理权重初始和激活函数
xavier 初始化权重
常用激活函数:
修改sigmod 4*sigmoid(x)-2
tanh /relu
当层数过多时候,梯度是累乘关系,如100 最后可能超过f16精度
梯度爆炸 后面梯度和权重值特别大
梯度消失 后台梯度和权重趋近于0
梯度合理范围e-6 到 e3
优化方法
1、优化点 乘法改为加法
resnet lstm
2、归一
梯度归一,大于小于阈值裁剪
3、合理权重初始和激活函数
xavier 初始化权重
常用激活函数:
修改sigmod 4*sigmoid(x)-2
tanh /relu