激活函数选择总结
尽量选择ReLU函数或者Leakly ReLU函数,相对于Sigmoid/tanh,ReLU函数或者Leakly ReLU函数会让梯度流更加顺畅,训练过程收敛得更快。
权值初始化总结
好的初始化方法可以防止前向传播过程中的信息消失,也可以解决反向传递过程中的梯度消失。
激活函数选择双曲正切或者Sigmoid时,建议使用Xaizer初始化方法;
激活函数选择ReLU或Leakly ReLU时,推荐使用He初始化方法。
过拟合现象
出现过拟合,得到的模型在训练集上的准确率很高,但在真实的场景中识别率确很低。
过拟合与欠拟合
过拟合——是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测得很差的现象。这种情况下模型可能只是记住了训练集数据,而不是学习到了数据特征。
欠拟合——模型描述能力太弱,以至于不能很好地学习到数据中的规律。产生欠拟合的原因通常是模型过于简单。
机器学习的根本问题是优化和泛化问题
优化——是指调节模型以在训练数据上得到最佳性能;
泛化——是指训练好的模型在前所未见的数据上的性能好坏。
应对过拟合
最优方案——获取更多的训练数据
次优方案——调节模型允许存储的信息量或者对模型允许存储的信息加以约束,该类方法也称为正则化。
调节模型大小
约束模型权重,即权重正则化(常用的有L1、L2正则化)
随机失活(Dropout)
神经网络中的超参数
超参数:网络结构——隐层神经元个数,网络层数,非线性单元选择等
优化相关——学习率、dropout比率、正则项强度等