sklearn实现数据集划分

最新推荐文章于 2025-04-03 04:30:00 发布

整得咔咔响

最新推荐文章于 2025-04-03 04:30:00 发布

阅读量8.5k

点赞数 7

分类专栏：统计机器学习文章标签： python 机器学习逻辑回归 js 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27388259/article/details/112168813

版权

本文详细介绍了sklearn中数据集划分的方法，包括留出法的ShuffleSplit和train_test_split，以及交叉验证的KFold和StratifiedKFold。强调了在分类问题中StratifiedKFold的分层抽样特性，并通过实例展示了不同方法的使用。此外，还提及了自助法和建模中一般的数据划分策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.留出法可用sklearn包ShuffleSplit和train_test_split实现

2.ShuffleSplit可以实现多次随机划分，train_test_split只能实现一次

3.random_state相同时，ShuffleSplit的首次切分结果与train_test_split完全一致

4.交叉验证法可用KFold、StratifiedKFold实现，逻辑一致，后者针对分类问题实现分层抽样

5.sklearn建模与调参的包cross_validate与GridSearchCV的数据集划分逻辑一致

6.如果是分类问题，cross_validate采取StratifiedKFold划分方法，其他都是采取KFold方法

小编在文章机器学习之模型评估介绍了数据集划分的方法，本文从就专门针对数据集划分的sklearn实现做一个详细介绍。

注：sklearn的函数包实在太多，有纰漏的地方还望指正

1.留出法

sklearn实现留出法的主要有两个包：ShuffleSplit和train_test_split。先给结论：

1.train_test_split实行单次数据集划分，通过参数random_state选定种子数

2.对于分类问题，train_test_split通过stratify参数实现分层抽样.

2.ShuffleSplit实行多次随机切分，默认10次，如果random_state参数与train_test_split相同，则第一次的切分方式与train_test_split完全一致

3.ShuffleSplit每一次的测试集训练集样本选取都是随机的

train_test_split是用得最多的数据集划分包，它的参数有五个：

*arrays：要切分的数据集，通过传入两个，X数据集和目标y
test_size：测试集样本大小
random_state：随机种子数
shuffle：是否要对数据集随机打乱
stratify：可以理解为分层抽样的设置值，通过针对分类问题的目标y</

最低0.47元/天解锁文章

整得咔咔响

博客等级

码龄10年

209
原创

607
点赞

3827
收藏

435
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

概率图模型(总结篇)
m0_47993635: 博主我爱你
你真的理解【条件概率】吗
Oumpi: 我是这么理解：假设换门赢，意味着一开始要选错的；假设不换门赢，意味着一开始要选对的：也就是说换门-赢，实际上取决于第一次的选择，而第一次总是更容易选到错的，所以换门总归赢面更大。但是我总感觉怪怪的，抽奖这种行为怎么能用概率呢，概率不是重复无数次实验趋于稳定的一个值吗，抽奖这种事，就当作是独立事件吧。
分部积分
半缘浅: 好东西要一起分享
直面配分函数（Confronting Partition Function）
m0_74071811: 但是感觉马尔科夫链那里用配合书上的受限玻尔兹曼机更好
直面配分函数（Confronting Partition Function）
m0_74071811: 比花书上讲的详细

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

整得咔咔响 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。