误差
模型的误差主要包含两种,偏差(bias)和方差(variance)。

偏差(Bias)
在训练过程中可以发现。偏差太大,会导致underfitting。

改进
1 设计新的模型
2 包含更多的特征
方差(variance)
在测试过程中可以发现。方差太大,会导致overfitting。
模型的复杂度越高,其variance也越高,更容易受输入数据的影响。

改进
1 增加更多的数据
2 正则化
总结

梯度下降
原理
泰勒展开

Loss函数利用泰勒展开,基于假设:learning rate/radius足够小。所以学习率对模型的优化非常重要。
如何更好的梯度下降?
1、可视化参数、学习率对损失函数的影响

2、Adagrad 自适应学习率
对每一个参数:

误区:一次偏导越大,离最低点的距离就越远。【关于g^i同时做分子和分母的矛盾】
该假设在跨参数比较时并不成立,如下图(a点与c点)

最佳步长与一阶导数、二阶导数均有关:

3、Stochastic
更新参数时,随机选取一个样本计算loss,而不是看完所有的样本再算loss。
在数据量较大时,也可以分批计算loss,在增加更新次数的同时,避免太大的运算量。

4、Feature scaling
特征归一化,统一所有特征的值的分布范围。

第一个图的直观理解:圈圈为loss等值线,同样的训练样本,如果w_1减少1,w_2不变,loss会有“1”的变化;如果w_2减少1,w_2不变,loss会有"100"的变化。所以w_2方向上变化更明显,等值线密集。
本文介绍了模型误差中的偏差与方差概念,探讨了过拟合与欠拟合问题及其解决方案,并详细讲解了梯度下降算法的原理及优化方法。

被折叠的 条评论
为什么被折叠?



