【机器学习】机器学习实验方法与原则（详解）

X.AI666

已于 2024-03-20 17:26:33 修改

阅读量1.3k

点赞数 33

分类专栏：机器学习文章标签：机器学习人工智能

于 2024-03-19 08:00:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen695969/article/details/136796982

版权

机器学习专栏收录该内容

27 篇文章 5 订阅

订阅专栏

• 训练集、验证集与测试集

训练集与测试集

• 训练集（作业）：模型可见样本标签，用于训练模型，样本数有限

• 在训练集上表现好的模型，在其他未见样本上一定表现好吗？小心 过拟合 ！

• 未见样本（所有没做过的题）往往有指数级别或无穷多个

未见

• 测试集（考试）：用于评估模型在可能出现的未见样本上的表现

• 尽可能与训练集互斥，即测试样本尽量不在训练集中出现，为什么？

这是因为测试集的目的是评估模型的泛化能力，即模型在未见过的数据上的表现。如果测试集中包含了训练集中的样本，那么模型在测试集上的表现可能会被过度乐观地评估，因为模型已经在训练过程中见过这些样本，从而可能记住了这些数据的特征，而不是真正地学习到了泛化规律。

• 估计模型在整个未见样本上的表现

训练集与测试集的划分方式

• 随机划分

• 按比例，例如 9:1 、 8:2

• 固定数目，例如测试集从全部样本中采样 1w 个，其余为训练集

• 留一化分（ leave-one-out ）

• 一个样本作测试，其余样本训练：常用于 K 近邻等算法的性能评估

• 特殊划分

• 按时间划分，例如 1-5 月气象数据作训练， 6 月气象数据作测试

• 推荐系统中，常把每个用户交互序列的最后一个样本作测试，其余作训练

验证集

• 从训练集中额外分出的集合，一般用于超参数的调整

• 训练轮次、正则化权重、学习率等等

• 为什么不在训练集上调整超参数？过拟合训练集

• 为什么不在测试集上调整超参数？过拟合测试集

• 针对当前测试集调出的参数可能只在当前测试集上较好

• 使得测试集结果偏高，不能反映实际在所有未见样本上的效果

• 类比：针对某场考试的知识点分布作重点复习，不能准确反映学生对所有知识的掌握程度。

• 举例：机器学习竞赛中，针对公开部分的测试数据过度调参，不一定在隐藏的全部测试数据上表现好。

• 随机重复实验

• 测一次就足够了吗？

• 极端情况：二分类中分类器随机输出，恰好测试集都对了（效果最好？）

• 数据随机性

• 由数据集划分带来的评价指标波动

• 模型随机性

• 由模型或学习算法本身带来的评价指标波动

• 例如：神经网络初始化、训练批次生成

• 数据随机性

• （数据足够多时）增多测试样本

• （数据量有限时）重复多次划分数据集

• 模型随机性

• 更改随机种子重复训练、测试

• 注意：保持每次得到的评价指标独立同分布 (iid)

• 报告结果：评价指标的均值

• 样本标准差(个体离散程度，反映了个体对样本均值的代表性)

• 标准误差(样本均值的离散程度，反映了样本均值对总体均值的代表性)

• K折交叉验证

• 随机把数据集分成 K 个相等大小的不相交子集

• 优点：数据利用率高，适用于数据较少时

• 缺点：训练集互相有交集，每一轮之间并不满足独立同分布

• 增大 K ，一般情况下：

• 所估计的模型效果偏差（ bias ）下降

• 所估计的模型效果方差（ variance ）上升

• 计算代价上升，更多轮次、训练集更大

• K 一般取 5 、 10

关注

33
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习】机器学习实验方法与原则（详解）

在机器学习和数据科学的世界中，理解如何恰当地划分数据集对于建立有效且健壮的模型至关重要。本文深入探讨了训练集、验证集与测试集的定义、它们之间的区别以及如何正确地进行划分。通过实际案例，我们介绍了不同的数据集划分方法，包括传统的训练集与测试集划分、引入验证集的重要性，以及更先进的技术，如随机重复实验和K折交叉验证。这些方法不仅帮助评估模型性能，还确保了模型在未见数据上的泛化能力。无论您是数据科学新手还是经验丰富的专家，本文都将为您提供宝贵的见解和实践建议，助力您在数据驱动的决策制定过程中取得成功。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

X.AI666 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。