Andrew Ng机器学习入门学习笔记（五）之调试学习算法

最新推荐文章于 2023-05-18 09:30:37 发布

SCUT_Arucee

最新推荐文章于 2023-05-18 09:30:37 发布

阅读量2.1k

点赞数 2

分类专栏：机器学习模式识别文章标签：机器学习调试

本文链接：https://blog.csdn.net/SCUT_Arucee/article/details/50388530

版权

本文介绍了机器学习诊断的重要性，强调了如何通过诊断方法评估和选择假设函数，以及如何应对高偏差和高方差问题。文章详细讨论了训练集与测试集的划分、模型选择、正则化对偏差/方差的影响，并通过学习曲线分析了训练数据量对模型性能的影响，提供了解决预测误差大的策略。

摘要由CSDN通过智能技术生成

一.机器学习诊断

在设计机器学习系统或者进行改进时如果遇到问题，下一步应该怎么办呢？

除了掌握一些学习算法之外，我们还需要知道如何调试一个算法。

例如我们已经实现了一个正则化线性回归来预测房价， $J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^m\theta_j^2]$

然而在将假设函数测试一个新的数据集时，发现预测误差很大。接下来该怎么办？有以下一些方法可供选择。

$\bigstar$ 获取更多训练样本
$\bigstar$ 尝试使用更少的特征
$\bigstar$ 尝试增加特征
$\bigstar$ 尝试加入多项式特征
$\bigstar$ 尝试减小 $\lambda$
$\bigstar$ 尝试增大 $\lambda$

问题在于大多数人只是凭感觉选择其中的一种或几种方法，最后发现浪费了大量时间做了无用功。

使用机器学习诊断法可以帮我们评估算法，排除掉一些无用的方法，节省大量时间。

机器学习诊断(diagnostic):它本身是一种测试法，执行它可以深入了解某种算法是否有用，并可以从中获得信息，即如何才能最大化改进这种算法的效果。虽然它的执行和实现是需要时间的，但是使用它能让我们更高效地利用时间。

二.评估假设函数

首先我们要知道一个事实，仅仅因为假设函数具有较小的训练误差并不能说明它是一个好的假设函数。前面已经讲过了过拟合，它不能泛化到新的输入上。如何判断过拟合呢？前面提到过画图的方法，但是对于特征变量很多的情况，画图会变得十分困难。

<1>下面介绍一种评估假设函数的标准方法：把一个数据集按70%的训练集和30%的测试集的比例分为两个部分。（如果数据集的分布有规律，则要随机取70%作为训练集，剩下30%作为测试集；如果数据集已经是随机分布，则可以取前70%作为训练集，后30%作为测试集）

①评估线性回归假设函数：

—用那占70%的训练数据通过

m i n θ J t r a i n (θ) = m i n θ 1 2 m t r a i n \sum i = 1 m t r a i n (h θ (x (i) t r a i n) - y (i) t r a i n) 2

$\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J_{train}(\theta)=\displaystyle\mathop{\mathrm{min}}\limits_{\theta}\frac{1}{2m_{train}}\sum_{i=1}^{m_{train}}(h_\theta(x_{train}^{(i)})-y_{train}^{(i)})^2$ 学习出参数

θ $\theta$ ；

—计算测试集的误差：

J t e s t (θ) = 1 2 m t e s t \sum i = 1 m t e s t (h θ (x (i) t e s t) - y (i) t e s t) 2

$J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_\theta(x_{test}^{(i)})-y_{test}^{(i)})^2$

②评估逻辑回归假设函数：

—用那占70%的训练数据通过

m i n θ J t r a i n (θ) = m i n θ {- 1 m t r a i n \sum i = 1 m t r a i n y (i) t r a i n l o g h θ (x (i) t r a i n) + (1 - y (i) t r a i n) l o g h θ (x (i) t r a i n)}

$\displaystyle\mathop{\mathrm{min}}\limits_{\theta}J_{train}(\theta)=\displaystyle\mathop{\mathrm{min}}\limits_{\theta}\{-\frac{1}{m_{train}}\sum_{i=1}^{m_{train}}y_{train}^{(i)}log h_\theta(x_{train}^{(i)})+(1-y_{train}^{(i)})log h_\theta(x_{train}^{(i)})\}$ 学习出参数

θ $\theta$ ；

—计算测试集的误差：