十: 假设选择

当训练模型存在较大误差的调优可选项:

1. 获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法。
2. 尝试减少特征的数量
3. 尝试获得更多的特征
4. 尝试增加多项式特征
5. 尝试减少归一化程度 λ
6. 尝试增加归一化程度 λ

每一个选项都可能耗费我们巨大的经历,所以在选择调优项之前,我们可以使用"机器学习诊断法"这种测试法,来了解某种算法

到底是否有用,来为我们提供有意义有价值的尝试方向。

 

1 评估一个假设

之前提到的算法,利用代价函数最小化求取参数值,而这一结果是依赖于我们的模型假设的,如何评估一个假设是合适的呢?

对于单特征训练集,可以直接对假设h(x)绘图观察趋势;

对于多特征训练集,可以通过假设函数过拟合检验

-校验方式:将训练样本经过洗牌后分为70%训练集以及30%测试集,通过训练集得到模型参数后,对测试集运用模型计算误差;

     对于线性回归模型:利用测试集数据计算代价函数 J
     对于逻辑回归模型:可求取代价函数J,以及对每个测试实例求误分类(预测错误)的比率

     

    

 

2  模型选择和交叉验证集 

假设需要在10个不同次数二项式模型做选择,洗牌后样本分为60%训练集,20%交叉验证集,20%测试集,步骤如下:

<1>. 使用训练集训练出 10 个模型
<2>. 用 10 个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)
<3>. 选取代价函数值最小的模型
<4>. 用步骤 3 中选出的模型对测试集计算得出推广误差(代价函数的值)

                                

注:虽然很明显高次项模型可以更好的拟合样本得到较小的误差,但是不一定可以推广到一般的情况,所以我们需

要这些验证方法去做更优的选择。

 

3 诊断偏差和方差

计算训练集与交叉验证集误差代价函数误差:

                         

同时将这两个误差与多项式次数绘制在一张图:

                        

    当d较小时,模型拟合程度低,误差较大; 【欠拟合】【Bias-模型准确性(输出与真实值差距)】

    当d较大时,模型拟合程度过高,损失一般性,交叉验证误差远大于训练误差;

                     【过拟合】【Variance-模型稳定性(输出与输出期望的差距)】

 

4 归一化和偏差/方差

可以采用归一化的方式来处理过拟合问题,归一化时候需要选取合适的λ值,通常步骤如下;

  1. 选择一系列的想要测试的 λ 值,通常是 0-10 之间的呈现 2 倍关系的值(0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10   共 12 个)
  2. 把数据分为训练集、交叉验证集和测试集
  3. 使用训练集训练出 12 个不同程度归一化的模型
  4. 用 12 模型分别对交叉验证集计算的出交叉验证误差
  5. 选择得出交叉验证误差最小的模型
  6. 运用步骤 3 中选出模型对测试集计算得出推广误差         

绘制训练集合交叉验证集代价误差与λ图可以比较明显的观察到:

                    

  当λ较小时,对原模型影响较小,过拟合,交叉验证集误差较大,训练集误差极小;

  当λ较大时,对原模型影响较大,欠拟合,交叉验证集误差又由小变大;

 

5  学习曲线

学习曲线是学习算法的一个很好的合理检验,可用来判断某一个学习算法是否处于偏差、方差问题;

曲线绘制:以训练集数量m为横轴,训练集误差和交叉验证集误差为纵轴绘制;

                                     

在欠拟合(高偏差问题)情况下,增加训练数据几乎没什么帮助;(如使用直线去拟合曲线模型)

在过拟合(高方差问题)情况下,增加训练集可能可以提高算法效果;(更新了模型曲线)

 

6 选择总结

    1. 获得更多的训练实例——解决高方差
    2. 尝试减少特征的数量——解决高方差
    3. 尝试获得更多的特征——解决高偏差
    4. 尝试增加多项式特征——解决高偏差
    5. 尝试减少归一化程度 λ——解决高偏差
    6. 尝试增加归一化程度 λ——解决高方差

神经网络的方差和偏差:

                

当神经网络较小,易导致欠拟合高偏差,但计算代价小;

当神经网络较大,易导致过拟合高方差,计算代价大但是可通过归一化手段调整;(通常这种选择更优)

 

 

 

------------------------------------------------------------------------------------------------------------------------------------

文章内容学习整理于吴教授公开课课程与黄博士笔记,感谢!


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值