机器学习笔记六

最新推荐文章于 2024-07-18 23:59:01 发布

Roland2014

最新推荐文章于 2024-07-18 23:59:01 发布

阅读量342

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Roland2014/article/details/74932006

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习应用建议

决定下一步做什么

调试学习算法

如果我们正利用正则化线性回归来预测房价，代价函数如公式

J (θ) = 1 2 m ⎡ ⎣ \sum i = 1 m (h θ (x i) - y i) 2 + λ \sum j n θ 2 j ⎤ ⎦

$J(\theta)=\frac{1}{2m} \left [\sum^{m}_{i=1}\left(h_{\theta}(x^i)-y^i\right)^2+\lambda\sum_{j}^{n}{\theta_{j}^2}\right]$

备注：Andrew Ng的ppt中公式有误，我这里更改了过来

然而，当你在新数据集上测试你的假设时，会发现预测结果的错误率不可接受。那下一步该怎样做？

获取更多的训练数据
尝试更小的特征集
尝试获取额外的特征
尝试添加多项式特征
尝试减小 $\lambda$
尝试增大 $\lambda$

机器学习诊断

-什么是诊断？
诊断就是一种测试，该测试可以让你更加清楚哪些有利于学习算法，哪些有害于学习算法，给你更好地改善学习算法性能提供更多指导。

诊断很费时，但很有用。

评价假设

对假设进行评价

如果选择的特征过多，模型可能对不在训练集中的数据缺乏泛化能力。
如图1所示，这里选择了4个特征 $[x_{1},x_{2},x_{3},x_{4}]$ ，假设为：

h θ (x) = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3 + θ 4 x 4

$h_{\theta}(x) = \theta_{0}+\theta_{1}x+\theta_{2}x^{2}+\theta_{3}x^{3}+\theta_{4}x^{4}$
这种请情况就是过拟合。过拟合造成对训练数据拟合非常好，但对测试数据缺乏泛化推广能力。

线性过拟合
图1 过拟合

线性回归训练/测试过程

-通过最小化训练误差 $J(\theta)$ 来学习参数 $\theta$

-计算测试误差

逻辑回归训练/测试过程

-通过训练数据来学习参数 $\theta$

-计算测试集误差
$J_{test}(\theta)=-\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}\left(y_{test}^{(i)}logh_{\theta}(x_{test}^{(i)})+(1-y_{test}^{(i)})logh_{\theta}(x_{test}^{(i)})\right)$

-误分类误差

模型选择和训练/验证/测试集

对于如图1所示的过拟合例子，一旦参数 $\theta_{0},\theta_{1},....,\theta_{4}$ 对训练集能够很好地拟合，训练集获得的参数误差可能比真是的泛化误差低。
通过测试集误差 $J_{test}(\theta^{(5)})$ 来反映模型泛化能力的好坏， $J_{test}(\theta^{(5)})$ 通常可能是泛化误差的乐观的估计。选择额外的参数能够对测试集进行拟合。

训练/验证/测试误差

训练误差：

J t r a i n (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right)^2$

交叉验证误差：

J c v (θ) = 1 2 m c v \sum i = 1 m c v (h θ (x (i) c v) - y (i) c v) 2

$J_{cv}(\theta)=\frac{1}{2m_{cv}}\sum_{i=1}^{m_{cv}}\left(h_{\theta}(x_{cv}^{(i)})-y_{cv}^{(i)}\right)^2$

训练误差：

J t e s t (θ) = 1 2 m t e s t \sum i = 1 m t e s t (h θ (x (i) t e s t) - y (i) t e s t) 2

$J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}\left(h_{\theta}(x_{test}^{(i)})-y_{test}^{(i)}\right)^2$

诊断偏差vs.方差

偏差和方差

如下三张图分别代表了高偏差（欠拟合）、“正好”、高方差（过拟合）

这里写图片描述
图2 欠拟合-适中-过拟合

训练误差：

J t r a i n (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y^{(i)}\right)^2$

交叉验证误差：

J c v (θ) = 1 2 m c v \sum i = 1 m c v (h θ (x (i) c v) - y (i) c v) 2

$J_{cv}(\theta)=\frac{1}{2m_{cv}}\sum_{i=1}^{m_{cv}}\left(h_{\theta}(x_{cv}^{(i)})-y_{cv}^{(i)}\right)^2$

随着多项式维度d的增大，训练误差逐渐减小；但交叉验证误差开始时会随多项式维度增大而减小，但当维度超过临界值后，交叉验证误差会随着维度的增大而增大。因此，多项式维度要选择适当大小的值。

诊断偏差vs.方差

如果学习算法的性能比预期的差（ $J_{cv}(\theta)$ 或 $J_{test}(\theta)$ 高）。那它是偏差问题还是方差问题？

从图2可以看出偏差（欠拟合）问题和方差（过拟合）问题的差别：
-偏差问题（欠拟合）：
训练误差 $J_{train}(\theta)$ 大，测试误差与交叉验证误差也较大并且近似相等；
-方差问题（过拟合）：
训练误差 $J_{train}(\theta)$ 小，交叉验证误差远大于训练集误差（ $J_{cv}(\theta) >> J_{train}(\theta)$ ）；

正则化和偏差/方差

线性回归正则化

选择的模型为：

h θ (x) = θ 0 + θ 1 x + θ 2 x 2 + θ 3 x 3 + θ 4 x 4

$h_{\theta}(x)=\theta_{0}+\theta_{1}x+\theta_{2}x^2+\theta_{3}x^3+\theta_{4}x^4$
代价函数为：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ 2 m \sum j = 1 n θ 2 j

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}\left(h_{\theta}(x^{(i)})-y_{(i)}\right)^2+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_{j}^{2}$

尝试不同的正则化参数 $\lambda$ ，可以做出交叉验证集的代价函数 $J_{cv}(\theta)$ ，训练集的代价函数 $J_{train}(\theta)$ 与正则化参数 $\lambda$ 的关系曲线，如图所示
这里写图片描述

从图中可以看出，当正则化参数 $\lambda$ 较小时，训练集的代价函数 $J_{train}较小，并随着$ \lambda $增大而增大；交叉验证集的代价函数$ J_{cv}(\theta) $，随着$ \lambda $增大先减少后增大。说明，正则化参数$ \lambda$参数要适中。

学习曲线

选择不同的训练集规模（即 $m$ 不同），交叉验证集的代价函数 $J_{cv}(\theta)$ ，训练集的代价函数 $J_{train}(\theta)$ 也会发生变化。训练集的代价函数 $J_{train}随着$ m $增大而增大；交叉验证集的代价函数$ J_{cv}(\theta) $，随着$ \lambda$增大而减少，如图所示。
这里写图片描述

高偏差（欠拟合）

当学习算法经历高偏差时，增加过多的训练集数据也不会由太大帮助，因为随着样本数 $m$ 的增大，训练集的代价函数 $J_{train}随着$ m $增大而增大；交叉验证集的代价函数$ J_{cv}(\theta) $，随着$ \lambda $增大而减少，但最后都会很快收敛，并且$ J_{cv}(\theta) $略大于$ J_{cv}(\theta)$。增长曲线如图所示。
这里写图片描述

高方差（过拟合）

当学习算法经历高方差时，增加过多的训练集数据可能会很有用，因为随着样本数 $m$ 的增大，训练集的代价函数 $J_{train}随着$ m $增大而增大；交叉验证集的代价函数$ J_{cv}(\theta) $，随着$ \lambda $增大而减少，并且$ J_{cv}(\theta) $略大于$ J_{cv}(\theta)$。增长曲线如图所示。
这里写图片描述