机器学习（一）~模型评估与选择之 *数据集划分与调参

最新推荐文章于 2023-12-18 12:54:04 发布

布拉拉巴卜拉

最新推荐文章于 2023-12-18 12:54:04 发布

阅读量2k

点赞数

分类专栏：机器学习算法文章标签：机器学习算法数据挖掘人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sollasido/article/details/106134509

版权

机器学习算法专栏收录该内容

15 篇文章 1 订阅

订阅专栏

机器学习（一）~模型评估与选择之 *数据集划分与调参

1.训练集、测试集与验证集

训练集： 模型训练数据
测试集： 评估泛化能力
验证集： 模型选择与调参
为了研究对比不同算法的泛化性能，用测试集上的拟合效果来估计不同模型的泛化能力，而把训练集再分为训练集和验证集，基于验证集上的性能来进行模型选择和调参

2.划分原则与方法

原则： 训练集/测试集的划分应尽可能保持数据分布一致性，测试集应尽可能与训练集互斥，即未被同时用于训练，避免引入额外偏差影响最终结果

留出法： 直接将数据集划分为两个互斥的集合，单次留出法往往不够稳定可靠，一般采用若干次随机划分，重复实验评估后取平均值作为留出法的评估结果（即多次留出法的评估结果均值作为评估结果才算可靠）

交叉验证法： 将数据集D划分为k个大小相似的互斥子集（通过分层采样得到），每次k-1个子集作为训练集，剩下1个子集为测试集，一次k折交叉验证进行k次训练/测试，保证每个子集都被训练/测试到

交叉验证法评估结果的稳定性与保真性大程度取决于k值，也叫“k折交叉验证（k-fold cross validation）”,常用k取5、10、20，下图是10折交叉验证

在这里插入图片描述

注意：10次“10折交叉验证法”与100次“留出法”都是进行了100次训练/测试

留一交叉验证法： 是交叉验证法的一个特例，此时k=m(样本总数)，即每次测试集只有一条数据
优点：受样本规模变化的影响小，结果往往准确
缺点：训练成本大

自助法： 有放回的采样m次，则样本在m次采样中始终未被采到的概率为：
在这里插入图片描述
即有1/3的样本始终未被采到，使其作为测试集

自助法在数据集较小，难以划分训练测试集时很有用
可以从初始数据集产生多个不同训练集，对集成学习等方法有很大好处
缺点：自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差，因此初始数据量足够时，留出法和交叉验证法更常用些

3.调参与最终模型

两类参数： 算法参数/”超参数“、模型参数

”超参数“数目一般在10以内，模型参数数目可以上亿
调参方式相似，均是产生多个模型之后基于某种评估方法进行选择
但”超参数“是人工设定多个参数候选值后产生模型，模型参数通过学习来产生多个候选模型（例如神经网络在不同轮数停止训练）

布拉拉巴卜拉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
机器学习（一）~模型评估与选择之 *数据集划分与调参

机器学习（一）~模型评估与选择之 *数据集划分与调参1.训练集、测试集与验证集训练集：模型训练数据测试集：评估泛化能力验证集：模型选择与调参为了研究对比不同算法的泛化性能，用测试集上的拟合效果来估计不同模型的泛化能力，而把训练集再分为训练集和验证集，基于验证集上的性能来进行模型选择和调参2.划分原则与方法原则：训练集/测试集的划分应尽可能保持数据分布一致性，测试集应尽可能与训练集互斥，即未被同时用于训练，避免引入额外偏差影响最终结果留出法：直接将数据集划分为两个互斥的集合，单
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。