机器学习模型的选择

weixin_34129696

于 2016-01-15 16:08:00 发布

阅读量73

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/simplelovecs/p/5133562.html

版权

　　首先明白一个事实，那就是如果我们在某个训练集上训练拟合得到一个模型，那么显然，这个模型在这个训练集上的训练错误很有可能会比实际上的泛化错误（generalization error）会低（模型overfitting）。

　　问题来了：

　　　　假如我们把数据集分成训练集和测试集。然后，在训练集上训练得到几个模型，我们想从中选择一个我们认为最好的模型。我们该如何做选择呢？

　　一种方法是，直接从中选择训练错误最小的那个模型。

　　　　但是，我们知道，训练错误最小，很可能是这个模型过度拟合；因此，这个模型的实际泛化错误（generalization error）很大。换句话说，如果把这些模型放在测试集上进行测试，训练错误最小的那个模型很可能测试错误很大。所以，这种方法不可行。

　　另一种方法是，把这些模型放在测试集上进行测试，然后选择测试错误最小的那个。

　　　　嗯，是不错，但是如果我们想知道这个模型的泛化错误（generalization error）是多少该怎么办？直接使用测试错误吗？显然这样做不好，前面提到，这个错误值往往很可能比实际的泛化错误小。

　　　　那该怎么办呢？

　　具体做法是：

　　　　首先，把数据集分成三部分：训练集、验证集（交叉验证集 cross validation set）、测试集；

　　　　其次，在训练集上训练得到几个模型；

　　　　接着，把这些模型放在验证集上进行验证，选择验证错误最小的那个模型；

　　　　最后，把这个模型放在测试集上进行测试，计算得到它的测试错误，这个测试错误就可以当成它的泛化错误（generalization error）。

　　

转载于:https://www.cnblogs.com/simplelovecs/p/5133562.html

weixin_34129696

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。