机器学习：数据集划分(包含交叉验证)

最新推荐文章于 2024-08-04 02:35:58 发布

c.x.y.07.30

最新推荐文章于 2024-08-04 02:35:58 发布

阅读量2.6k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/MARY197011111/article/details/90176537

版权

本文介绍了数据集划分的几种方法，包括留出法、交叉验证法、留一法、分层交叉验证和自助法。强调了各种方法的优缺点，如留出法的偶然性、交叉验证法的泛化能力提升、留一法的耗时问题以及自助法在小数据集上的应用。通过理解这些方法，可以更好地评估和训练机器学习模型。

摘要由CSDN通过智能技术生成

1.留出法

原始数据分成训练集、验证集和测试集，并且保持数据分布的一致性，可以使用shuffle
缺点：只进行了一次划分，数据结果具有偶然性

from sklearn.model_selection import train_test_split
'''
(1)random_state不填或者为0时，每次都不同；其余值表示不同随机数
(2)shuffle表示是否在分割之前对数据进行洗牌（默认True）
'''
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.30,random_state=42,shuffle=True)

2.交叉验证法
在这里插入图片描述

数据量大时，k设置小一些 / 数据量小时，k设置大一些
优点：降低由一次随机划分带来的偶然性，提高其泛化能力，提高对数据的使用效率。
缺点：可能存在一种情况：数据集有5类，抽取出来的也正好是按照类别划分的5类，也就是说第一折全是0类，第二折全是1类，等等；这样的结果就会导致，模型训练时。没有学习到测试集中数据的特点，从而导致模型得分很低，甚至为0，

from sklearn.model_selection import KFold
kf = KFold(n_splits=2)
for train_index, test_index

最低0.47元/天解锁文章

c.x.y.07.30

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录