【11月组队学习】误差与梯度下降

本文介绍了模型误差中的偏差与方差概念,探讨了过拟合与欠拟合问题及其解决方案,并详细讲解了梯度下降算法的原理及优化方法。
摘要由CSDN通过智能技术生成

误差

模型的误差主要包含两种,偏差(bias)和方差(variance)。

偏差(Bias)

在训练过程中可以发现。偏差太大,会导致underfitting。

 改进

1 设计新的模型

2 包含更多的特征

方差(variance)

在测试过程中可以发现。方差太大,会导致overfitting。

模型的复杂度越高,其variance也越高,更容易受输入数据的影响。

 改进

1 增加更多的数据

2 正则化

总结

 梯度下降

原理

泰勒展开

 Loss函数利用泰勒展开,基于假设:learning rate/radius足够小。所以学习率对模型的优化非常重要。

如何更好的梯度下降?

1、可视化参数、学习率对损失函数的影响

 2、Adagrad 自适应学习率

对每一个参数:

误区:一次偏导越大,离最低点的距离就越远。【关于g^i同时做分子和分母的矛盾】

 该假设在跨参数比较时并不成立,如下图(a点与c点)

最佳步长与一阶导数、二阶导数均有关:

 3、Stochastic

更新参数时,随机选取一个样本计算loss,而不是看完所有的样本再算loss。

在数据量较大时,也可以分批计算loss,在增加更新次数的同时,避免太大的运算量。

 4、Feature scaling

特征归一化,统一所有特征的值的分布范围。

 第一个图的直观理解:圈圈为loss等值线,同样的训练样本,如果w_1减少1,w_2不变,loss会有“1”的变化;如果w_2减少1,w_2不变,loss会有"100"的变化。所以w_2方向上变化更明显,等值线密集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值