机器学习中模型的选择

在机器学习领域,模型选择是一个十分重要的课题,在我们只有训练数据的情况下,我们没法知道准确模型是什么?也没有任何先验的信息来说明模型的样子。并且我们也没有测试数据,虽然我们经常做机器学习模型的时候,给的数据会包含测试数据,其实在做模型的时候,测试数据是没有的,或者你不知道的。但是当你在实际中做机器模型的时候,我们有的数据就是训练数据,并且没法用测试数据验证你模型的好坏。在这个情况下我们需要将训练数据分为训练数据和验证数据两部分。验证数据分法可以参考下面的链接:http://blog.csdn.net/uestc_c2_403/article/details/72859395。这样才可以选出好的模型。

如果我们把所有数据用来训练,如果训练误差很小,没有经过模型的验证,很有可能会产生过拟合(overfitting)。所以需要利用验证数据验证模型的好坏。就是利用数据训练很多的模型,比如有10多个模型,选取验证数据上面误差最小的那个模型。最有在利用所有的数据对这个模型训练一次,得到你的最终的模型。比如:在做线性拟合的时候,我们可以得到3次、5次等等多项式的模型,从这里面选一个最好的用测试数据。

由以上的建议我们可以知道,如果我们做机器学习的时候,选定了一个模型,如果训练误差比较小,测试误差比较大,就可能是过拟合。这样需要采用增加数据或者别的操作。如果数据也比较多,那是否可以考虑换一个模型。

注意:单一验证中测试数据不能太小,太小了也会让模型不太好的,就是有可能会选出错误的模型。所以需要采用交叉验证,不能采用单一的验证。采用交叉验证最后的测试误差就是所以测试误差的平均,选出最小的,在用全部数据训练出最后的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值