思考
- 什么是拟合与过拟合
- 如何对抗过拟合
简单回顾下欠拟合与过拟合
在之前的博客中,博主针对欠拟合与过拟合简单总结过。博客链接:欠拟合与过拟合
拟合、欠拟合与过拟合
- 在训练模型时,涉及到选择与比较不同的模型在训练集和测试集的预测结果
- 这里有Bias(偏差)与Variance(方差)
- 拟合:
- 抓住主要特征,主要规律,主要趋势,可用于同一总体的其他采样样本的结果预测
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/9b1f78c364716d1377b7150b452189b1.gif)
* 欠拟合:
* 模型不够复杂,漏掉了部分数据规律
* high bias
* 增加模型复杂度
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/f74d90384945afe99437656db1f76746.png)
- 过拟合:
- 模型过于复杂,把样本的部分随机误差当作了总体的数据规律,并用模型进行解释。这部分解释并不能推广到总体分布的其他样本中。
- high variance
- 减少不必要的模型复杂度
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/22ad66cfefe67cd5f114a48ac782f72c.png)
对抗过拟合
- 交叉检验
- 正则化(regularization)
- L1
- L2
1. 从验证训练结果入手:交叉验证(cross-validation)
“交叉验证法”先将数据集D划分为k个大小相似的互斥子集,即 D=D1⋃D2⋃...⋃Dk,Di⋂Dj=∅(i≠j). D = D 1 ⋃ D 2 ⋃ . . . ⋃ D k , D i ⋂ D j = ∅ ( i ≠ j ) . 每个子集 Di D i 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用 k−1 k − 1 个子集的并集作为训练集,余下的那个子集作为测试集,由此可以得到 k k 组训练/测试集,从而可进行 次训练和测试,最终返回的是这 k k 个测试结果的均值。以下为“10折交叉验证示意图”(此解释来自周志华教授的西瓜书,很容易理解)
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/cad8b232f8e208cea33d33c9a3e5d9fa.jpeg)
2. 从限制模型复杂度入手:正则化(regularization)
- 以线性回归为例:
如果 βj β j 被限制在一个较小的范围,那么所对应的 xij x i j 对模型复杂度对影响就会减弱
- L1 norm: Lasso
使用L1正则的线性回归模型称为LASSO回归
β^Lasso=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2,subject to ∑j=1N||βj||≤t, β ^ L a s s o = a r g m i n β ∑ i = 1 N ( y i − β 0 − ∑ j = 1 p x i j β j ) 2 , s u b j e c t t o ∑ j = 1 N | | β j | | ≤ t ,L2 norm: Ridge
- 使用L2正则的线性回归模型就称为Ridge回归(岭回归)
β^Ridge=argminβ∑i=1N(yi−β0−∑j=1pxijβj)2,subject to ∑j=1Nβ2j≤t, β ^ R i d g e = a r g m i n β ∑ i = 1 N ( y i − β 0 − ∑ j = 1 p x i j β j ) 2 , s u b j e c t t o ∑ j = 1 N β j 2 ≤ t ,
Ridge(L2-norm)和LASSO(L1-norm)比较
- Lasso的结果容易将系数减至0
- Ridge则是减小至非0值
L2-norm中,由于对于各个维度的参数缩放是在一个圆内缩放的,不可能导致有维度参数变为0的情况,那么也就不会产生稀疏解;实际应用中,数据的维度中是存在噪声和冗余的,稀疏的解可以找到有用的维度并且减少冗余,提高回归预测的准确性和鲁棒性(减少了过拟合)
Ridge模型具有较高的准确性、鲁棒性以及稳定性;LASSO模型具有较高的求解释速度。
注:Python代码实现—–链接