【三】欠拟合与过拟合

最新推荐文章于 2022-12-04 19:13:55 发布

禛zhen

最新推荐文章于 2022-12-04 19:13:55 发布

阅读量1.3k

点赞数 1

分类专栏：斯坦福大学公开课机器学习课程文章标签：机器学习教程

本文链接：https://blog.csdn.net/knight_wzz/article/details/52886900

版权

斯坦福大学公开课机器学习课程专栏收录该内容

25 篇文章 6 订阅

订阅专栏

欠拟合和过拟合 Underfitting and Overfitting

在上一讲介绍的回归问题中，一个重要的问题是回归函数的选择，既可以用线性函数进行回归，也可以使用二次函数甚至更高次的函数，函数的次数就可以理解为参数的个数，也称为特征集的个数（因为系数越多表明考虑的“因素”越多，即特征集越大）。如下列三种对数据集拟合的方法：

这一图片是对同一数据集的拟合，很明显，中间的函数大致反映了数据集的变化趋势，但也存在一些误差，尚在我们可接受的范围之内。左侧的图片使用线性函数进行拟合，相比之下并没有中图所呈现的效果好，其误差很大很明显，且没有体现出数据的变化趋势，称为欠拟合；右图使用了很高次的回归方程，对每一个点的回归都很准确，但这与真实的情况相差很远，因为真实的情况不会出现频繁的波动，使用高次的函数进行回归，使用训练集的结果会得到很高的准确率，但泛化能力较差，对训练集之外的数据波动很大，称为过拟合。

似然方程 Likelihood Function

定义似然方程，表示在已知输入的情况下，输出为y的概率

为使结果准确，我们希望在输入x的情况下预测出y的概率最大。

定义对数似然函数log likelihood function l(θ)，即对L(θ)取对数

注意到化简后第一项在概率分布确定的情况下为一常数，因此追求对数似然函数的最大值即追求等式第二项的最小值，这与之前的损失方程是一致的。

以上可以理解为损失函数的概率解释。

局部加权线性回归 Locally Weighted Linear Regression

这一算法考虑的思路如下，输入一个未知的x（测试集），与x距离更近的训练集输入对其的参考价值越大，特殊情况，若测试输入与训练集中一个输入相同，即其距离为0，则测试的输出应该就是训练的输出（因为是两个完全一样的输入）。

简而言之，即考虑了函数整体较为平滑，以局部的拟合代替对整体的拟合。这一算法的具体做法如下

1. Fit θ to minimize Sum(i = 1 to m)[w(i)*[y(i)-h(x;θ)]^2]

2. Output θ^T*X

这一算法输出的就是对测试集的预测，那么问题在于，如何设置权重。

权重的设置应满足两点距离越近，则权值越大，越远则越小，更好的情况是，当两者完全重合时（即一样时），令权值为1，当两者差异很大时（距离为无穷大），令权值为0，可令权值方程如下

w(i) = exp(-((x(i)-x))^2/(2*τ^2))

τ控制了权重下降的速度，称为带宽Bandwidth

非参数算法Non-parametric Algorithm

局部加权线性回归算法是一种非参数算法，这种算法的参数随训练集的个数m变化。

逻辑方程 Logistic Regression

之前我们讨论的是y取离散值时的情况，我们可以将之称为预测问题，也可以称为回归问题（或者其他什么问题，只要其结果取值为连续值就好）。对于结果为离散值的情况，最简单的即为{0，1}，我们将其成为分类问题（Classification Problem），也就是说我们将结果分为几个类，然后将测试集的数据分别归类到不同的类中。在这种情况下，之前讨论的连续函数将不再适合这一问题，我们希望得到在类别分界点突变的函数，一个典型的函数便是逻辑函数。

分类问题的参数函数的表达式如下