类神经网络训练不起来怎么办?
1.局部最小值和鞍点
梯度为0对应critical point,可能是局部最小值local minima,也可能是鞍点saddle point。
2.batch批次和momentum动量
batch size大小需要进一步结合训练时间、预测准确度进行判断。
一般地,大的batch size具有更快的速度,小的batch size具有更好的优化性能和泛化性能。
3.学习率
不同的学习阶段需要不同的学习率。
可以考虑梯度学习率或warm up策略。
4.loss function
分类问题和回归问题采用的损失函数不一样。
5.batch normalization
对数据每一维进行batch normalization,使得数据分布特征相近。如使用0-1标准化使得数据均值为0、标准化为1.
这样使得一个学习率对所有参数能够进行较快的梯度下降。
ref
392

被折叠的 条评论
为什么被折叠?



