简单易懂的人工智能系列：机器学习基本概念（二）

最新推荐文章于 2023-06-06 21:48:01 发布

薛定谔的猫96

最新推荐文章于 2023-06-06 21:48:01 发布

阅读量361

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767261

版权

18 篇文章 2 订阅

订阅专栏

经验风险（Empirical Risk）：损失函数度量了单个样本的预测结果，要想衡量整个训练集的预测值和真实值的差异，将整个训练集所有记录进行一次预测求取损失函数，将所有值累加，即为经验风险。经验风险越小说明模型f(x)对训练集的拟合程度越好。

公式为：，经验风险类似为代价函数（Cost Function），作用于整个训练集，是整个样本集的平均误差，对所有损失函数值的平均。

风险系数（Risk Function）：又称期望损失、期望风险。所有数据集（包括训练集和预测机，遵循联合分布P(X, Y））的损失函数的期望值。公式为：

经验风险VS 期望风险：

经验风险存在的问题是样本集较小的时候，仅仅关注经验风险，很容易导致过拟合，比如有坐标系有一系列的点，通过图我们可以大致知道是线下关系

通过线性（一次）拟合可得， Y = \(y = 1.0429x+0.2571\),实际上有些点没在直线模型上，也就是经验风险还存在，而且在不断增大模型的复杂度的情况下，对当前数据样本的拟合会越来越好（经验风险下降，当到六次模型时候，完全拟合——经验风险最低）

那是否能说明经验风险低，模型就一定低吗？

刚才的是训练集，这之外还有新的数据（测试集），通过计算各个次模型在训练集和预测集上的的预测值和损失函数

我们可以看到随着模型越来越复杂，虽然训练集上的误差不断下降，加上测试集后，在全局数据上的误差（期望风险）不断增大——过拟合了。

那我们该怎么办才能选择在全局数据上表现好的模型呢？这时候需要引入结构风险这个概念，

结构风险是指在经验风险的基础上，增加一个正则化项（Regularizer）或者叫做惩罚项（Penalty Term），公式为：

其中为一个大于0的系数，\(J(f)\)表示模型\(f(x)\)的复杂度。这样对越复杂的模型惩罚的力度越大

结构风险VS 经验风险

参数越多，经验风险越小，模型越复杂，越容易过拟合，结构风险就是通过使得经验风险和模型复杂度相对达到最小，此时的模型在全局数据上的效果最好。

首先看一个栗子：已知某数据集有6个特征值，目的是在特征值和结果之间建立联系，去预测未知数据集上的结果。选取绝对值损失函数：、惩罚函数项选择（其中是模型的参数，绝对值越小——越接近0，对模型的复杂度贡献越小），计算结构风险和经验风险：

从图中可以看到，二元模型的经验风险最小，而一元模型的结构风险最小，在测试集上的经验风险一元模型更好（为何测试集只算经验风险，因为我们在已知测试集之后，全局数据上的经验风险近似为期望风险），所以我们要选择结构风险最小的模型。

正则化项（Regularizer）：即惩罚函数，该项对模型向量进行惩罚，从而避免过拟合问题。正则化方法，会自动消弱不重要的特征变量，自动从许多的特征变量中“提取”重要的特征变量，减小特征变量的数量级。

我们来示范的计算一下结构风险（取 = 1）：

六次模型的惩罚项远远大于一次模型。一次模型虽然经验风险高，但是综合后一次模型更好。

规则化函数有多种选择，一般的，它是模型复杂度的单调递增函数，模型越复杂，该函数的值也就越大，惩罚力度也就越大。常使用模型的参数向量的范数。

常用的范数有零范数，一范数，二范数，迹范数，Frobenius范数等等

范数（Norm）：是数学中的一种基本概念，它定义在赋泛线性空间汇总，满足非负性，齐次性，三角不等式等条件的量三个特点。常常用来度量向量的长度和大小，P-范数的公式表示为：

L0范数：非0的元素的个数。使用L0范数，期望参数大部分为0，即让参数是稀疏的（某些特征被消除）。

L1范数：各个元素的绝对值之和，使用L1范数，会使参数稀疏（参数变为0，使得某些特征被消除）。L1范数也被称为稀疏规则算子

L2范数：各元素的平方和求平方根，使得每个元素都很小，但不会的等于0，而是接近0（比如有五个参数，那么有部分参数会被调的很小，但不为0）。

就像上面这个图中，对于L2范数，相当于左侧的两个圆相切（横纵坐标都不为0），对于L1范数，相当于（在坐标轴上的点和风险函数相切，其中部分参数被稀疏为了0）

L1范数下的回归——Lasso回归，L2范数下的回归——岭（Ridge）回归

在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也就是应该选择的模型。正则化就符合奥卡姆剃刀原理（“如无必要，勿增实体”，即“简单有效原理——切勿浪费较多东西去做，用较少的东西，同样可以做好的事情。”）。

关注

专栏目录