《从机器学习到深度学习》笔记（4）划分数据集

最新推荐文章于 2024-02-07 07:45:00 发布

学习如逆水行舟

最新推荐文章于 2024-02-07 07:45:00 发布

阅读量502

点赞数

文章标签： Tensorflow sklearn 机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kgsew/article/details/90019701

版权

任何机器学习算法都是基于对已有数据集或环境的信息挖掘，要求将从现有数据学习得到的模型能够适配于未来的新数据。

1. 训练集（Training set）与测试集（Test set）

很自然的，在评估模型能力的时候需要采用与模型训练时不同的数据集，因此在训练模型之前需要将已有数据集划分成如图1-13的两部分。

图1-13 训练集与测试集

顾名思义，图中的训练集用于在训练模型时使用，测试集用于评估模型准确率。一般训练集与测试集一旦划分就无需再变动，因为只有稳定的测试集才能用来衡量不同模型的准确率。一旦重新划分两个集合，那么需要重新训练所有模型并在新的测试集上进行评估。

2. 随机采样（Random Sampling）

一般来说两个集合的划分需加入随机因子，使得每个数据项有相等的机会被分到任一集合中。如不加入随机因子，可能出现类似这样的问题：

数据整体是一年的按时间排序的皮大衣销售数据。不用随机采样策略的话，划分后训练集中只包括春、夏两季的用户数据；而测试集中是秋、冬季的数据。此时用春、夏季数据训练的模型明显无法很好地预测秋、冬季销售情况。

同理ÿ

最低0.47元/天解锁文章

学习如逆水行舟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《从机器学习到深度学习》笔记（4）划分数据集

任何机器学习算法都是基于对已有数据集或环境的信息挖掘，要求将从现有数据学习得到的模型能够适配于未来的新数据。1. 训练集（Training set）与测试集（Test set）很自然的，在评估模型能力的时候需要采用与模型训练时不同的数据集，因此在训练模型之前需要将已有数据集划分成如图1-13的两部分。图1-13 训练集与测试集顾名思义，图中的训练集用于在训练模型时使用，测试集用...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。