模型选择和改进

最新推荐文章于 2024-06-06 14:00:30 发布

天泽28

最新推荐文章于 2024-06-06 14:00:30 发布

阅读量5.4k

点赞数 2

分类专栏：机器学习&深度学习文章标签：偏差方差模型选择学习曲线机器学习

本文链接：https://blog.csdn.net/u012328159/article/details/51203541

版权

机器学习&深度学习专栏收录该内容

86 篇文章

订阅专栏

模型选择和改进

在前几篇博客中分别介绍了线性回归，逻辑回归，神经网络的一些知识。但是，假如你想要开发一个机器学习系统或者改进一个机器系统性能的时候该怎么办？下面介绍一些方法和建议。如果你的假设函数在测试集上表现出很大的误差，那你接下来该怎么改进呢，一般会想到以下方法：

但是，有了以上方法我们该如何确定我们想要改进的机器学习系统适用于具体哪一种。盲目的选择，既浪费了时间又没有任何效果。首先要评估我们的学习算法，以便找出其中的问题，对症下药。

当我们在训练集上拟合模型时，我们希望得到使代价函数最小的参数，即使训练误差最小的参数。但是此时极容易出现过拟合的现象，导致模型的泛化能力很差。那么该如何判断我们的假设函数是过拟合呢？我们可以把原始数据集分割成训练集和测试集，一般按照7:3的比例分割，最好随机选择70%作为训练集，剩下的30%作为测试集。如下图所示：

我们在训练集上最小化训练误差得到参数，使用在训练集上得到的假设函数在测试集上测试，计算测试误差。这样就可以评价我们的假设函数。

一、模型选择

我们该如何选择出一个正好拟合的模型（既不过拟合又不欠拟合）。拿最简单的线性回归举例子，在下图中我们该选择那个多项式呢？我们定义一个参数d：degree of polynomial。下图中d依次为1,2,3,...10。

我们可以按照上面说的那样，把数据集分成训练集和测试集，在训练集上求出参数，然后在测试集上选择测试误差最小的那个多项式。但是这个显然不合理，因为这样的话，实际上我们的参数d是和测试集拟合的，这样再去比较就不公平了。因此我们需要采用一个新的评估方法：把数据划分成训练集（train set），验证集（cross validation set），测试集（test set）。一般来说，train set占60%，CV占20%，test set占20%。因此我们可以这样评估我们的模型：在训练集上求出参数，在验证集上找出验证误差最小的多项式，然后在测试集上评估它的泛化能力。