【Machine Learning】10 机器学习的建议(Advice for applying machine learning )

【围绕样本量、λ、特征数如何影响偏差与方差来改进学习算法的性能】

目录

10.1 Deciding What to Try Next

10.2 Evaluating a hypothesis

10.3 Model selection and training/validation/test sets

10.4 Diagnosing bias vs. variance

10.5 Regularization and bias/variance

10.6 Learning curves

10.7 Deciding what to try next (revisited)

总结


10.1 Deciding What to Try Next

当我们利用已知训练集训练好神经网络后,我们接下来如何改进机器学习系统性能?可以从以下几方面入手:

有些人盲目选择这些方法,花了很多时间最后发现选的方法行不通。那么如何正确选择这些方法呢?
我们进行Machine learning diagnostic诊断方法\downarrow

10.2 Evaluating a hypothesis

如何评估你的学习算法?

有人认为得到一个很小的训练误差时学习算法好,但当参数误差很小的时候,反而可能效果并不好,因为这种过拟合会导致训练集上效果显著但再测试集上的泛化能力并不好。

我们将数据分为训练集和测试集,通常前者占70%后者占30%(随机排序后提取或随机提取)。

线性回归的假设评估:                                                           逻辑回归的假设评估:

     

运用于特征的选择、正则化参数的选择?\downarrow

10.3 Model selection and training/validation/test sets

多项式拟合时次数怎么定?模型的选择

 很显然,把数据分为70%训练集和30%测试集后,我们去把每个模型拟合训练集的参数求出来,再去比较它们在测试集的误差,误差小的一般就是我们要选的模型。然而,这里存在一个问题。我们最终选的模型是可以很好泛化测试集的,但对于新样本,这个模型依然可能效果很差。

我们把数据分为三组,60%作为训练集, 20%作为交叉验证集, 20%作为测试集。

      

我们将每个模型在训练集上训练出参数后,将这些模型在交叉验证集计算误差,选出误差最小的模型,再用这个模型计算测试集上的误差。这样测试集就可以很好估计误差。

10.4 Diagnosing bias vs. variance

当你的学习算法效果不理想,多半是偏差太大或者方差太大,也就是出现欠拟合或者过拟合。分辨这两种情况可以指引你改进算法的方向。

     

   如右图,我们将每个模型在训练集和验证集上的误差画在一起。验证集线的转折点就是开始出现过拟合的点,那么对于两个误差都很高的点,我们如何判断是偏差还是方差过大,即如何判断是欠拟合还是过拟合呢?

右图其实已经给出答案,当训练集误差与验证集误差相差无几时为欠拟合,当训练集误差与验证集误差相差很大时为过拟合,显然欠拟合相当于一个公平的模型对于训练集和验证集效果一样的差;过拟合则对训练集有高度拟合效果很好,但在验证集上就行不通了。

运用到模型选择?

10.5 Regularization and bias/variance

 如图,lambda如果太小就会过拟合,太大会欠拟合,那么如何选取适当的lambda?

 我们尝试不同的λ,第一个舍去正则项,后面依此*2直到一个比较大的数。依此在训练集上计算取不同λ得到的θ,再验证集上选取一个误差最小的模型作为最终选择,它对应的λ就是要取的正则化参数。

画出不同λ对应训练集和验证集的偏差和方差可以发现,

10.6 Learning curves

绘制学习曲线,将上面介绍的基础结合起来。

  当样本容量增大时 模型的训练误差逐渐增大(图右,二次函数拟合数据,error随着数据量增大而增大,无论是否用了正则化)

当样本容量增大时 模型的验证误差逐渐减小(样本小时,对新样本的适应性不强,自然在交叉验证集上的误差大)。

    

(1)用直线拟合的例子看出,在高偏差的情况下,过了某个点,即使样本量增大,交叉验证集的误差也趋于稳定,而且此时参数太少,无法很好拟合训练集,训练集的误差会接近于验证集误差。所以如果在学习算法处于高偏差的情况下,盲目增大数据样本量是没有意义的。

(2)用高阶函数拟合数据,在高方差情况下,增大样本量所帮助。

10.7 Deciding what to try next (revisited)

回到最开始的问题:


总结

小型神经网络形式比较简单,计算量小,容易出现欠拟合现象

大型神经网络形式比较复杂,计算量大,容易出现过拟合现象,此时使用正则化项效果较好

隐藏层层数的选择也可以构建如 1层 2层 3层 等不同模型,比较选择一个最佳层数。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值