十：假设选择

最新推荐文章于 2024-08-02 17:15:32 发布

sukexii

最新推荐文章于 2024-08-02 17:15:32 发布

阅读量336

点赞数

分类专栏：机器学习-公开课笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dandanli_1/article/details/108333862

版权

机器学习-公开课笔记专栏收录该内容

18 篇文章 0 订阅

订阅专栏

当训练模型存在较大误差的调优可选项：

1. 获得更多的训练实例——通常是有效的，但代价较大，下面的方法也可能有效，可考虑先采用下面的几种方法。
2. 尝试减少特征的数量
3. 尝试获得更多的特征
4. 尝试增加多项式特征
5. 尝试减少归一化程度 λ
6. 尝试增加归一化程度 λ

每一个选项都可能耗费我们巨大的经历，所以在选择调优项之前，我们可以使用"机器学习诊断法"这种测试法，来了解某种算法

到底是否有用，来为我们提供有意义有价值的尝试方向。

1 评估一个假设

之前提到的算法，利用代价函数最小化求取参数值，而这一结果是依赖于我们的模型假设的，如何评估一个假设是合适的呢？

对于单特征训练集，可以直接对假设h(x)绘图观察趋势；

对于多特征训练集，可以通过假设函数过拟合检验；

-校验方式：将训练样本经过洗牌后分为70%训练集以及30%测试集，通过训练集得到模型参数后，对测试集运用模型计算误差；

对于线性回归模型：利用测试集数据计算代价函数 J
对于逻辑回归模型：可求取代价函数J，以及对每个测试实例求误分类(预测错误)的比率

2 模型选择和交叉验证集

假设需要在10个不同次数二项式模型做选择，洗牌后样本分为60%训练集，20%交叉验证集，20%测试集，步骤如下：

<1>. 使用训练集训练出 10 个模型
<2>. 用 10 个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值)
<3>. 选取代价函数值最小的模型
<4>. 用步骤 3 中选出的模型对测试集计算得出推广误差（代价函数的值）

注：虽然很明显高次项模型可以更好的拟合样本得到较小的误差，但是不一定可以推广到一般的情况，所以我们需

要这些验证方法去做更优的选择。

3 诊断偏差和方差

计算训练集与交叉验证集误差代价函数误差：

同时将这两个误差与多项式次数绘制在一张图：

当d较小时，模型拟合程度低，误差较大；【欠拟合】【Bias-模型准确性(输出与真实值差距)】

当d较大时，模型拟合程度过高，损失一般性，交叉验证误差远大于训练误差；

【过拟合】【Variance-模型稳定性(输出与输出期望的差距)】

4 归一化和偏差/方差

可以采用归一化的方式来处理过拟合问题，归一化时候需要选取合适的λ值，通常步骤如下；

选择一系列的想要测试的 λ 值，通常是 0-10 之间的呈现 2 倍关系的值（0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10 共 12 个）
把数据分为训练集、交叉验证集和测试集
使用训练集训练出 12 个不同程度归一化的模型
用 12 模型分别对交叉验证集计算的出交叉验证误差
选择得出交叉验证误差最小的模型
运用步骤 3 中选出模型对测试集计算得出推广误差

绘制训练集合交叉验证集代价误差与λ图可以比较明显的观察到：

当λ较小时，对原模型影响较小，过拟合，交叉验证集误差较大，训练集误差极小；

当λ较大时，对原模型影响较大，欠拟合，交叉验证集误差又由小变大；

5 学习曲线

学习曲线是学习算法的一个很好的合理检验，可用来判断某一个学习算法是否处于偏差、方差问题；

曲线绘制：以训练集数量m为横轴，训练集误差和交叉验证集误差为纵轴绘制；

在欠拟合(高偏差问题)情况下，增加训练数据几乎没什么帮助；(如使用直线去拟合曲线模型)

在过拟合(高方差问题)情况下，增加训练集可能可以提高算法效果；(更新了模型曲线)

6 选择总结

1. 获得更多的训练实例——解决高方差
2. 尝试减少特征的数量——解决高方差
3. 尝试获得更多的特征——解决高偏差
4. 尝试增加多项式特征——解决高偏差
5. 尝试减少归一化程度 λ——解决高偏差
6. 尝试增加归一化程度 λ——解决高方差

神经网络的方差和偏差：

当神经网络较小，易导致欠拟合高偏差，但计算代价小；

当神经网络较大，易导致过拟合高方差，计算代价大但是可通过归一化手段调整；(通常这种选择更优)

------------------------------------------------------------------------------------------------------------------------------------

文章内容学习整理于吴教授公开课课程与黄博士笔记，感谢！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
十：假设选择

当训练模型存在较大误差的调优可选项：1. 获得更多的训练实例——通常是有效的，但代价较大，下面的方法也可能有效，可考虑先采用下面的几种方法。2. 尝试减少特征的数量3. 尝试获得更多的特征4. 尝试增加多项式特征5. 尝试减少归一化程度 λ6. 尝试增加归一化程度 λ每一个选项都可能耗费我们巨大的经历，所以在选择调优项之前，我们可以使用"机器学习诊断法"这种测试法，来了解某种算法到底是否有用，来为我们提供有意义有价值的尝试方向。1 评估一个假设之前提到的算法，利用代价函数.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。