机器学习基础
- 1.什么是Bias?什么是Variance?
- 2.如何解决过拟合和欠拟合问题?
Bias:反映的是模型在样本上的输出与真实值之间的误差,即模型的精准度(单个模型的学习能力)
Variance:反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性(同一个算法在不同的数据集上的不稳定性)
机器学习中的调优方向:High Bias + Low Variance,即上图左上角
解决欠拟合的方法
- 模型复杂化
- 增加更多的特征,使输入数据具有更强的表达能力
- 调整参数和超参数
- 降低正则化约束
解决过拟合的方法
- early stopping: 在发生过拟合之前提前结束训练。理论上可以,但是不好把握
- 数据集扩增:就是让模型见到更多的情况,可以最大化地满足全样本,但是实际应用中对未来事件的预测显得鞭长莫及
- 正则化:通过引入范数的概率,增强模型的泛化能力,比如L1正则,L2正则
- Dropout:网络模型中的一种方法,每次训练时舍去一些节点来增强泛化能力