源视频链接:https://www.bilibili.com/video/BV1Ht411g7Ef?p=5
学习笔记总结
一、误差从哪里来?
1 欠拟合 /过拟合
将图中的误差拆分为偏差和方差。简单模型(左边)是偏差比较大造成的误差,这种情况叫做欠拟合,而复杂模型(右边)是方差过大造成的误差,这种情况叫做过拟合。2 解决欠拟合的方法 :
- 数据集输入中添加更多的特征变量
- 重新设计采用其他模型
3 解决过拟合方法 - 增加训练集数据量
- 加入正则化限制过拟合,减少方差过程也会增加偏差
4 通过交叉验证 K折交叉验证 预先在验证集上选择最优模型,再去测试集上训练,可以提高测试集评价结果的真实性
二、梯度下降法 学习率设置技巧
1 小心翼翼调整学习率
- 学习率不能是一个值通用所有特征,不同的参数需要不同的学习率 一个典型算法 Adagrad 算法
- 也可随着迭代次数增加 逐渐使用较大学习率
举一个简单的思想:随着次数的增加,通过一些因子来减少学习率
通常刚开始,初始点会距离最低点比较远,所以使用大一点的学习率
update好几次参数之后呢,比较靠近最低点了,此时减少学习率
2 随机梯度下降法
3 特征缩放
特征缩放后,可以提高参数更新效率
4 根据梯度下降法的数学理论基础,学习率需要足够小才满足泰勒展开式的假设,否则梯度下降时,无法实现损失函数的减小
5 梯度下降法 并不是万能,不合适的初始点和学习率 都有可能找不到局部最优参数