Coursea-吴恩达-machine learning学习笔记（十）【week 6之Advice for Applying Machine Learning】

最新推荐文章于 2020-04-14 16:23:29 发布

痞靥

最新推荐文章于 2020-04-14 16:23:29 发布

阅读量276

点赞数

分类专栏：机器学习文章标签：模型修正

本文链接：https://blog.csdn.net/u012347642/article/details/80629077

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

假设使用正则化线性回归预测房价：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta)={1\over2m}[\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n \theta_j^2]$
当把假设函数用于新的数据集，发现在预测时出现了很大误差。此时，可以执行的下一步措施包括：

获取更多训练样本；
尝试更少特征值；
尝试更多特征值；
尝试增加多项式特征值；
减小 $\lambda$ 值；
增大 $\lambda$ 值。

机器学习诊断法：通过执行一种测试方法，能够了解某种算法是否有用，通常也能告诉你，想要改进一种算法的效果应该做什么样的尝试。
诊断法需要花费时间，但是一种很有效的方法。

假设拥有一组训练样本，为确保可以评估假设函数，将训练样本分成两部分，70%作为训练集，30%作为测试集， $m_{test}$ 作为测试样本总数：
训练集： $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$
测试集： $(x^{(1)}_{test},y^{(1)}_{test}),(x^{(2)}_{test},y^{(2)}_{test}),\cdots,(x^{(m_{test})}_{test},y^{(m_{test})}_{test})$

若训练数据存在某种规律，训练集、测试集的选取应采用随机原则。

具体执行步骤：

利用训练集进行学习，得到参数 $\theta$ ；
计算测试误差：
对于线性回归：
$J t e s t (θ) = 1 2 m t e s t \sum i = 1 m t e s t (h θ (x (i) t e s t) - y (i) t e s t) 2$ $J_{test}(\theta)={1\over2m_{test}}\sum_{i=1}^{m_{test}} (h_\theta(x^{(i)}_{test})-y^{(i)}_{test})^2$
对于逻辑回归：
$J t e s t (θ) = - 1 m t e s t \sum i = 1 m t e s t (y (i) t e s t l o g (h θ (x (i) t e s t)) + (1 - y (i) t e s t) l o g (1 - h θ (x (i) t e s t)))$ $J_{test}(\theta)=-{1\over m_{test}}\sum_{i=1}^{m_{test}}(y^{(i)}_{test}log(h_\theta(x^{(i)}_{test}))+(1-y^{(i)}_{test})log(1-h_\theta(x^{(i)}_{test})))$
另一种表达方式： $0/1$ 误分率：
$e r r (h Θ (x), y) = {1, 0, i f (h Θ (x) ⩾ 0.5 a n d y = 0) o r (h Θ (x) < 0.5 a n d y = 1) o t h e r w i s e T e s t E r r o r = 1 m t e s t \sum i = 1 m t e s t e r r (h Θ (x), y)$ $err(h_\Theta(x),y)=\begin{cases} 1, & if\ (h_\Theta(x)\geqslant 0.5\ and\ y=0)\ or\ (h_\Theta(x)\lt 0.5\ and\ y=1)\\ 0, & otherwise \end{cases}\\Test\ Error={1\over m_{test}}\sum_{i=1}^{m_{test}}err(h_\Theta(x),y)$

模型选择问题
在实际应用中，为了更好地评价某个假设函数，通常采用上述方法的升级版：
将一组训练样本分成三部分：训练集、交叉验证集、测试集，典型的分隔比例为 $(60\%:20\%:20\%)$
训练集： $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$
交叉验证集： $(x^{(1)}_{cv},y^{(1)}_{cv}),(x^{(2)}_{cv},y^{(2)}_{cv}),\cdots,(x^{(m_{cv})}_{cv},y^{(m_{cv})}_{cv})$
测试集： $(x^{(1)}_{test},y^{(1)}_{test}),(x^{(2)}_{test},y^{(2)}_{test}),\cdots,(x^{(m_{test})}_{test},y^{(m_{test})}_{test})$

训练误差： $J_{train}(\theta)={1\over2m}\sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$
交叉验证误差： $J_{cv}(\theta)={1\over2m_{cv}}\sum\limits_{i=1}^{m_{cv}} (h_\theta(x^{(i)}_{cv})-y^{(i)}_{cv})^2$
测试误差： $J_{test}(\theta)={1\over2m_{test}}\sum\limits_{i=1}^{m_{test}} (h_\theta(x^{(i)}_{test})-y^{(i)}_{test})^2$

若存在以下假设函数：
1. $h_\theta(x)=\theta_0+\theta_1x$
2. $h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2$
3. $h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3$
$\cdots$
10. $h_\theta(x)=\theta_0+\theta_1x+\cdots+\theta_{10}x^{10}$

选择假设函数的具体方法如下：

用训练集优化各假设函数的参数 $\theta$ ；
用交叉验证集找到误差最小的假设函数；
用测试集估算步骤2中误差最小的假设函数的泛化误差。

由于欠拟合和过拟合的存在，随着假设函数的多项式最高项的增大，训练误差和交叉验证误差的变化如下图：
这里写图片描述
上图中，交叉验证误差曲线的左边对应高偏差，右边对应高方差；
高偏差对应欠拟合：训练误差和交叉验证误差均很大，且训练误差 $\approx$ 交叉验证误差，原因为多项式最高次项过低；
高方差对应过拟合：训练误差较小，交叉验证误差很大，原因为多项式最高次项过高。

正则化与偏差/方差的关系：
假设要对高阶多项式进行拟合： $h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4$
则： $J(\theta)={1\over2m}[\sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum\limits_{j=1}^n \theta_j^2]$
关于 $\lambda$ 的取值有三种情况：

$\lambda$ 取值很大，则 $\theta_0\approx0,\cdots,\theta_4\approx0,h_\theta(x)\approx\theta_0$ ，欠拟合，高偏差；
$\lambda$ 取值很小， $\lambda\approx0$ ，正则化没有起作用，过拟合，高方差；
$\lambda$ 取值适当，拟合度正好。

为选取合适的 $\lambda$ 参数，需要进行如下步骤：

创建一个 $\lambda$ 取值列表，如 $\lambda\in \{0,0.01,0.02,\cdots,10.24\}$ ；
创建一个模型集，即不同阶或包含其他的变量的不同假设函数；
迭代遍历 $\lambda$ ，对于每个 $\lambda$ ，都遍历所有的假设函数，用测试集得到其 $\theta$ 取值；
使用步骤3得到的 $\theta$ 带入假设函数，不进行正则化或 $\lambda=0$ ，计算交叉验证误差 $J_{cv}(\theta)$ ；
选择 $J_{cv}(\theta)$ 最小的 $\lambda$ 和 $\theta$ 对应关系；
用选择的那对 $\lambda$ 和 $\theta$ ，计算 $J_{test}(\theta)$ 看是否有好的泛化效果。

学习曲线
训练误差： $J_{train}(\theta)={1\over2m}\sum\limits_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2$
交叉验证误差： $J_{cv}(\theta)={1\over2m_{cv}}\sum\limits_{i=1}^{m_{cv}} (h_\theta(x^{(i)}_{cv})-y^{(i)}_{cv})^2$
当学习算法存在高偏差：

训练集规模较小时， $J_{train}(\theta)$ 较小，而 $J_{cv}(\theta)$ 较大；
训练集规模较大时， $J_{train}(\theta)$ 与 $J_{cv}(\theta)$ 趋近，即 $J_{train}(\theta)\approx J_{cv}(\theta)$ ，但均较大。

此时，增加训练样本数量对训练算法无帮助。
这里写图片描述

当学习算法存在高方差：

训练集规模较小时， $J_{train}(\theta)$ 较小，而 $J_{cv}(\theta)$ 较大；
训练集规模较大时， $J_{train}(\theta)$ 随着样本数增大而增大， $J_{cv}(\theta)$ 随着样本数增大而减小， $J_{train}(\theta)$ 依然小于 $J_{cv}(\theta)$ ，但差距变小。