【机器学习】如何对抗过拟合（交叉验证与正则化）

最新推荐文章于 2024-07-20 07:45:00 发布

Day-yong

最新推荐文章于 2024-07-20 07:45:00 发布

阅读量3.9k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Daycym/article/details/80310548

版权

机器学习专栏收录该内容

50 篇文章 47 订阅

订阅专栏

思考

什么是拟合与过拟合
如何对抗过拟合

简单回顾下欠拟合与过拟合

在之前的博客中，博主针对欠拟合与过拟合简单总结过。博客链接：欠拟合与过拟合

拟合、欠拟合与过拟合

在训练模型时，涉及到选择与比较不同的模型在训练集和测试集的预测结果
这里有Bias（偏差）与Variance（方差）
拟合：
- 抓住主要特征，主要规律，主要趋势，可用于同一总体的其他采样样本的结果预测

* 欠拟合：
* 模型不够复杂，漏掉了部分数据规律
* high bias
* 增加模型复杂度

过拟合：
- 模型过于复杂，把样本的部分随机误差当作了总体的数据规律，并用模型进行解释。这部分解释并不能推广到总体分布的其他样本中。
- high variance
- 减少不必要的模型复杂度

对抗过拟合

交叉检验
正则化(regularization)
- L1
- L2

1. 从验证训练结果入手：交叉验证（cross-validation）

“交叉验证法”先将数据集D划分为k个大小相似的互斥子集，即 $D=D_1 \bigcup D_2 \bigcup ... \bigcup D_k, D_i \bigcap D_j = \varnothing (i \neq j).$ 每个子集 $D_i$ 都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用 $k - 1$ 个子集的并集作为训练集，余下的那个子集作为测试集，由此可以得到 $k$ 组训练/测试集，从而可进行 $k$ 次训练和测试，最终返回的是这 $k$ 个测试结果的均值。以下为“10折交叉验证示意图”（此解释来自周志华教授的西瓜书，很容易理解）

2. 从限制模型复杂度入手：正则化(regularization)

以线性回归为例：

L o s s = \sum_{i = 1}^{N} (y_{i} - β_{0} - \sum_{j = 1}^{p} x_{i j} β_{j})^{2}

$\begin{equation*} Loss = \sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2 \\ \end{equation*}$
如果

βj β j $\beta_j$ 被限制在一个较小的范围，那么所对应的

xij x i j $x_{ij}$ 对模型复杂度对影响就会减弱

L1 norm: Lasso
使用L1正则的线性回归模型称为LASSO回归

$β^L a s s o = a r g m i n β \sum i = 1 N (y i - β 0 - \sum j = 1 p x i j β j) 2, s u b j e c t t o \sum j = 1 N | | β j | | \leq t,$ $\begin{equation*} \hat{\beta}^{Lasso} = argmin_{\beta}\sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2, \\ subject \ to \ \sum_{j=1}^N ||{\beta_j}|| \leq t, \end{equation*}$
L2 norm: Ridge
使用L2正则的线性回归模型就称为Ridge回归（岭回归）
$β^R i d g e = a r g m i n β \sum i = 1 N (y i - β 0 - \sum j = 1 p x i j β j) 2, s u b j e c t t o \sum j = 1 N β 2 j \leq t,$ $\begin{equation*} \hat{\beta}^{Ridge} = argmin_{\beta}\sum_{i=1}^N (y_i - \beta_0 - \sum_{j=1}^{p}x_{ij}\beta_j)^2, \\ subject \ to \ \sum_{j=1}^N \beta_j^2 \leq t, \end{equation*}$

Ridge（L2-norm）和LASSO（L1-norm）比较

这里写图片描述

Lasso的结果容易将系数减至0
Ridge则是减小至非0值

L2-norm中，由于对于各个维度的参数缩放是在一个圆内缩放的，不可能导致有维度参数变为0的情况，那么也就不会产生稀疏解；实际应用中，数据的维度中是存在噪声和冗余的，稀疏的解可以找到有用的维度并且减少冗余，提高回归预测的准确性和鲁棒性（减少了过拟合）

Ridge模型具有较高的准确性、鲁棒性以及稳定性；LASSO模型具有较高的求解释速度。

注：Python代码实现—–链接

Day-yong

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】如何对抗过拟合（交叉验证与正则化）

思考什么是拟合与过拟合如何对抗过拟合简单回顾下欠拟合与过拟合在之前的博客中，博主针对欠拟合与过拟合简单总结过。博客链接：欠拟合与过拟合拟合、欠拟合与过拟合在训练模型时，涉及到选择与比较不同的模型在训练集和测试集的预测结果这里有Bias（偏差）与Variance（方差）拟合：抓住主要特征，主要规律，主要趋势，可用于同一总体的其他采样样本的结果预测 ...
复制链接

扫一扫

专栏目录