机器学习——什么时候需要显式的划分出“验证集”

       所谓的显式的划分出“验证集”,其实就是显式的将数据集划分为“训练集”、“验证集”、“测试集”。但是假如要使用k折交叉验证来为模型进行超参数调优而言,是不需要显式的将数据集划分出“验证集”的。

       当数据集的整体比较小时,常常需要使用k折交叉验证才能更加精确的评估一个模型的性能指标(因为k折交叉验证可以解决数据分布的敏感性问题),从而为模型选择比较优的超参数。使用k折交叉验证是不需要显式的从数据集中划分出“验证集”的,直接将数据集划分为“训练集”和“测试集”即可,在训练集上进行交叉验证从而对模型的超参数进行寻优。得到模型的最优超参数之后,使用训练集喂给模型从而训练出分类器,最后使用测试集测试分类器的性能。

 

关于使用交叉验证之后,是否还需要单独分出测试集问题?

网址:https://www.cnblogs.com/sddai/p/8378167.html给了较好的解答。有两种思路:

       思路一,不使用独立的测试,直接在整个数据上进行k折交叉验证,从而得到模型的最优超参数。同时将k折交叉验证的预测精度作为模型的预测精度。

       思路二、将数据分为训练集和测试集两部分,在训练集上进行k折交叉从而得到模型的最优超参数。然后使用整个训练集结合最优超参数训练出分类器。最后使用测试模型在测试集上的预测精度。

       两种思路没有本质的对错之分,但是本人更加推荐思路二,思路二使用了测试集,该集合和模型本身完全独立、无关,显然能够更好的评估模型的泛化能力。思路一中使用k折交叉验证的预测精度作为模型的预测精度,是存在误差的,交叉验证的预测精度通常高于模型真实的预测精度。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值