模型选择和训练/验证/测试数据集

对于过拟合现象

\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]

Once parameters θ01234 were fit to some set of data (training set), the error of the parameters as measured on that data (the training error J(θ)) is likely to be lower than the actual generalization error.

一旦参数θ01234适合某些数据集(训练集),在该数据上测量的参数误差(训练误差J(θ))可能低于实际值泛化错误(在测试集上的错误)。


 

假设又如下模型

\[\begin{array}{l}
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x\\
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2}\\
.\\
.\\
.\\
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + ... + {\theta _{10}}{x^{10}}
\end{array}\]

该选择哪一个?

一般情况下我们会用以下步骤选择模型

  • 运用训练集训练模型得到参数θ
  • 将不同模型得到的假设函数运用于测试集
  • 找出在测试集中误差最小的模型

这样做的问题在于你的模型选择依赖于测试集,你是根据模型对于测试集的表现选择模型的,这样做对于新的数据表现如何并不能很好的保障。

解决方法是

将数据分为训练集(Training set)60%、交叉验证集(Cross validation set)20%、测试集(Test set)20%。

运用交叉验证集去选取模型,而不是测试集。

转载于:https://www.cnblogs.com/qkloveslife/p/9883759.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值