机器学习&神经网络—模型评估、正则化

最新推荐文章于 2024-08-20 15:26:43 发布

sisteryaya

最新推荐文章于 2024-08-20 15:26:43 发布

阅读量3.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/sisteryaya/article/details/81490014

版权

机器学习专栏收录该内容

14 篇文章 2 订阅

订阅专栏

一、模型评估-bias and variance

2、为什么L1可以实现稀疏化，L2不可以？

1）数学公式角度

2）几何图像角度

3、那为什么L2正则化可以获得值很小的参数？

参考链接：

一、模型评估-bias and variance

验证集和测试集来自同一分布会更好；

常见情况如下：

训练集误差小（1%），验证集大（15%），为高方差，可能过拟合训练集了；

训练集误差大（15%），验证集大（16%），错误率几乎为0，高偏差，可能欠拟合，识别cat不准确；

训练集误差小（0.5%），验证集小（1%），低方差，低偏差；

训练集误差小（15%），验证集小（30%），高方差，高偏差；过拟合部分数据；

解决方法：

首先要明确问题 is bias or varianceor both？

先判断是否为高偏差（bias）：1）用更大的网络；2）加大训练时间；3）或者使用其他不同的网络结构；

不是高偏差，则判断是否为高方差（variance）：1）用更多的训练数据；2）正则化；3）或者使用其他不同的网络结构；

不断优化使error最小；

二、特征选择

特征选择：就是从特征集合中选择出相关特征子集的过程。

原因：一是用来解决维数灾难，就是说模型过于复杂，将噪音（错误或异常）数据也学习了；

二是去除不相关的特征降低学习任务的难度；

方法：

【子集搜索与评价】

子集搜索：

前向搜索：将每个特征看做一个子集，先选最优的一个{ $a_{2}$ }，再选最优的两特征子集{ $a_{2},a_{4}$ }，且优于{ $a_{2}$ }，再选三个的，k+1轮时，若最优的候选集不如上一轮的，则停止生成候选集，选上一轮的为最优子集；

后向搜索：与前向搜索相反，从完整特征集合开始，每次去掉一个无关特征；

双向搜索：前向与后向的结合，增加相关特征的同时减少无关特征。

评价：计算增益。就是说对数据集D，假定 i 类所占比例为 $p_{i}$ ，假定样本属性为离散型。对于属性子集A，假定根据其取值将 D 划分为 V 个子集，每个子集中的样本在 A上取值相同，然后由信息增益的公式计算其增益，增益越大，表示特征子集 A 包含的有助于分类的信息越多。

子集搜索和评价相结合，就可以得到特征选择方法。前向搜索和信息熵的结合，与决策树的特征选择方法很相似。

常用的特征选择方法：过滤式（filter）、包裹式（wrapper）和嵌入式（embedding）；

1、过滤式（Relief）

Relief 是为二分类设计的。特征选择过程与后续的学习器无关。

思想是：通过设计一个相关统计量才度量特征的重要性，取一个阈值，来取高于阈值的特征，或取相关统计量topK的特征。

具体是：对样本 $x_{i}$ ，先找其同类中的最近邻 $x_{i,nh}$ ，再找其异类样本中的最近邻 $x_{i,nm}$ ，对属性 j 计算 diff（ $x_{i}^{j}$ ， $x_{i,nh}^{j}$ ）、 diff（ $x_{i}^{j}$ ， $x_{i,nm}^{j}$ ），两者相等时，diff=0，否则为1，对于连续变量，diff为两者的差值的绝对值，diff（ $x_{i}^{j}$ ， $x_{i,nm}^{j}$ ）=| $x_{i}^{j}$ ， $x_{i,nm}^{j}$ |；若前者<后者，说明属性 j 对区分同类、异类有帮助，增加其统计量，反之减少。

2、包裹式（LVW）

与学习器有关；所谓包裹式特征选择就是把最终要使用的学习器的性能作为特征子集的评价标准。

LVW（Las Vegas Wrapper）是一个典型的特征选择方法，它在拉斯维加斯方法（Las Vegas Method）框架下使用随机策略来进行子集搜索。

具体：设误差值为无穷，停止条件参数T（次数），当误差变小了，或者误差不变的情况下，新的特征子集数更小，则更新误差和子集，否则，t（t<T）就加 1，直到满足T就结束。

LVW算法描述如下：在特征子集 $A'$ 上通过交叉验证估计学习器的误差。

3、嵌入式选择与L1正则

过滤式与包裹式的结合，就是在学习器训练过程中自动进行特征选择。

L1 正则可以产生稀疏解。

三、L1、L2正则化：

必备知识：

给定向量 $x=(x_{1},x_{2},...,x_{n})$ ，

L0范数：并不是一个真正的范数，它主要被用来度量向量中非零元素的个数；

L1范数：向量各个元素绝对值之和；

$\left \| x \right \|_{1}=\sum_{i=1}^{n}|x_{i}|$

L2范数：向量各个元素的平方求和然后求平方根；

$\left \| x \right \|_{2}=\sqrt{\sum_{i=1}^{n}x_{i}^{2}}$

Lp范数：向量各个元素绝对值的p次方求和然后求 1/p 次方；

$\left \| x \right \|_{p}=\sqrt[p]{}{\sum_{i=1}^{n}x_{i}^{p}}$

$L\infty$ 范数：响亮的各个元素求绝对值，取最大那个元素的绝对值

$\left \| x \right \|_{\infty }=max\left ( |x_{i}| \right )$

L1范数正则化：就是通过向目标函数中添加L1范数，使的学习到的结果满足稀疏化，用于特征选择。

1、添加L1和L2正则化有什么用？

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型（很多0），可以用于特征选择；
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合；

2、为什么L1可以实现稀疏化，L2不可以？

参考链接：

为什么L1正则项会产生稀疏解

为什么L1稀疏，L2平滑？

1）数学公式角度

所以(不失一般性，我们假定：wi等于不为0的某个正的浮点数，学习速率η 为0.5)

L1的权值更新公式为：

也就是说权值每次更新都固定减少一个特定的值(比如0.5)，那么经过若干次迭代之后，权值就有可能减少到0。

L2的权值更新公式为：

也就是说权值每次都等于上一次的1/2，那么，虽然权值不断变小，但是因为每次都等于上一次的一半，所以很快会收敛到较小的值但不为0。

总结：

L1能产生等于0的权值，即能够剔除某些特征在模型中的作用（特征选择），即产生稀疏的效果。

L2可以得迅速得到比较小的权值，但是难以收敛到0，所以产生的不是稀疏而是平滑的效果。

2）几何图像角度

1、L1正则

$\alpha$ 越大，方形越小，也可以取到很小的值；

2、L2正则

在二维空间表示，左边为L1函数，图示最优解落在坐标轴上，意味着某些参数为0，从而实现稀疏化；右边为L2，函数图像为圆形，与方形相比，没有棱角，在坐标轴相交的可能性大大减小，因此没有稀疏性。

西瓜书上解释的很清楚：假设 x 仅有两个属性，所以上面两个优化目标解出的 $w$ 都只有两个分量，即 $w_{1},w_{2}$ ，我们将其作为两个坐标轴，先绘制出不带正则的损失函数的“等值线”，即在（ $w_{1},w_{2}$ ）空间中 $J_{0}$ 取值相同的点的直线，再分别绘制出 $L_{1}$ 范数和 $L_{2}$ 范数的等值线，即在（ $w_{1},w_{2}$ ）空间中 $L_{1}$ 范数取值相同的点的连线，以及 $L_{2}$ 范数取值相同的点的连线，如下图所示，我们优化目标的解要在目标函数和正则化项之间折中，即它们的等值线的相交处；可以看出，采用L1范数时交点常出现在坐标轴上，即 $w_{1}$ 或 $w_{2}$ 为0，而采用L2范数时交点更易出现在某个象限内，即 $w_{1}$ 或 $w_{2}$ 非0；换句话说，采用L1范数更容易得到稀疏解。

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型（很多0），可以用于特征选择；
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合；

è¿éåå¾çæè¿°

3、那为什么L2正则化可以获得值很小的参数？（L2正则为什么可以防止过拟合）

因为 $\theta$ 是不断减小的，达到了权重衰减的效果。

过拟合：可以描述为特征维数很大，但样本很少；也可以说模型太复杂，将噪音数据也一并学习了。

L2正则为什么可以解决过拟合？过拟合就是拟合函数需要顾忌到每一个点，使函数波动很大，函数波动大的地方函数的导数值是非常大的，导致导数值大的原因是系数太大，因为自变量是可大可小的，所以只有系数足够大时，导数才会很大。那么正则化就是通过约束参数的范围使其不要太大，所以它能在一定程度上减小过拟合。

所以解决过拟合的方法：增加训练样本，减少特征（降低模型复杂度）等