Ensemble Learning Task 3
学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning
Task 3 的主要学习内容是 掌握偏差与方差理论
这一部分内容主要是优化基础模型,分为以下几个部分:
- 训练均方误差与测试均方误差
- 偏差方差的权衡
- 特征提取
- 压缩估计(正则化)
- 降维
第一部分主要是通过对训练与测试的均方误差进行比较,从评价指标的角度对过拟合现象进行深入的解释。通过训练与测试不同场景下,不同均方误差所带来的最终测试结果的不同,强调训练过程中的重点不是训练均方误差的最小化而是测试集上的误差最小化。
第二部分针对方差与偏差的定义,从定义和直观化呈现出发,解释方差与偏差两者在测试过程中存在的此消彼长的关系。同时随着模型复杂度的变化,方差与偏差的增长与减少也动态的导致了测试均方误差的变化。这一权衡的过程正是我们为了达到第一部分最小化测试均方误差这一目的所必须处理的首要问题。
第三部分,依然是基于第一部分最小化测试误差的这一目的。我们需要通过一些方法来估计测试误差,从而确定测试误差的变化情况。这里提到了误差修正与交叉验证两种方法。在估计出合理的测试误差成为可能后,我们就
开始基于这一目标进行特征的选择,涉及到的方法有最优子集选择法与向前逐步选择法。
第四部分中,提到了另一种可以显著降低模型方差的处理方法:在对模型进行拟合的过程中对回归系数进行约束或者加罚,以降低模型方差提高拟合效果。这里涉及到岭回归、Lasso回归等方法
最后,第五部分主要是通过降维对方差进行控制的介绍。降维的思想是将原始特征空间投影到一个低维的空间以实现减少变量的目的。常用的算法如:主成分分析等