模型选择和训练/验证/测试数据集

最新推荐文章于 2024-01-17 10:16:49 发布

weixin_30700099

最新推荐文章于 2024-01-17 10:16:49 发布

阅读量313

点赞数

原文链接：http://www.cnblogs.com/qkloveslife/p/9883759.html

版权

对于过拟合现象

\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]

Once parameters θ₀,θ₁,θ₂,θ₃,θ₄ were fit to some set of data (training set), the error of the parameters as measured on that data (the training error J(θ)) is likely to be lower than the actual generalization error.

一旦参数θ₀,θ₁,θ₂,θ₃,θ₄适合某些数据集（训练集），在该数据上测量的参数误差（训练误差J（θ））可能低于实际值泛化错误（在测试集上的错误）。

假设又如下模型

\[\begin{array}{l}
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x\\
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2}\\
.\\
.\\
.\\
{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + ... + {\theta _{10}}{x^{10}}
\end{array}\]

该选择哪一个？

一般情况下我们会用以下步骤选择模型

运用训练集训练模型得到参数θ
将不同模型得到的假设函数运用于测试集
找出在测试集中误差最小的模型

这样做的问题在于你的模型选择依赖于测试集，你是根据模型对于测试集的表现选择模型的，这样做对于新的数据表现如何并不能很好的保障。

解决方法是

将数据分为训练集（Training set）60%、交叉验证集（Cross validation set）20%、测试集（Test set）20%。

运用交叉验证集去选取模型，而不是测试集。

转载于:https://www.cnblogs.com/qkloveslife/p/9883759.html

weixin_30700099

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模型选择和训练/验证/测试数据集

对于过拟合现象\[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\]Once parametersθ0,θ1,θ2,θ3,θ4 were fit to some set of data (training ...
复制链接

扫一扫