python 自动划分数据集为测试集和验证集train_test_split

最新推荐文章于 2024-06-23 16:58:58 发布

一头特立独行的驴

最新推荐文章于 2024-06-23 16:58:58 发布

阅读量5.3k

点赞数

分类专栏： nlp 文章标签： python 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43304992/article/details/111660488

版权

本文介绍了Python中用于自动划分数据集为测试集和验证集的train_test_split函数，详细说明了test_size、train_size、random_state等参数的作用，并通过example1和example2展示了如何将数据和标签按比例7:3进行拆分。

摘要由CSDN通过智能技术生成

如果不想看具体参数的可以拉到最后看通常使用方式

用train_test_split可以自动帮你把数据集划分为测试集和验证集

from sklearn.model_selection import train_test_split

output= sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)

*array:长度相同的可索引序列/形状[0]:输入包括lists, numpy arrays, scipy-sparse matrices 或者 pandas dataframes.
test_size:float 或 int, default=None。这个就是测试集在数据集中的比例，如果不设置或者设置为None，则自动设置为1-train_size，如果train_size 也为None，则将其设置为0.25
train_size ：float 或 int, default=None。这个是测试集在数据集中比例，用法与test_size相似。
random_state ：int，RandomState instance 或None,default=None。在应用拆分之前，控制应用于数据的改组。为多个函数调用传递可重复输出的int值。
shuffle:bool, default=True。是否打乱数组。如果shuffle = False，则stratify必须为None;
stratify:array-like, default=None。如果不是None，则将数据用作类标签以分层方式拆分。

output:list, length=2 * len(arrays):包含输入分离后的测试集和验证集。

example1：

最低0.47元/天解锁文章

一头特立独行的驴

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

一头特立独行的驴 CSDN认证博客专家 CSDN认证企业博客

码龄6年

126: 原创

32万+: 周排名

68万+: 总排名

11万+: 访问

: 等级

1542: 积分

15: 粉丝

54: 获赞

23: 评论

157: 收藏

私信

关注

热门文章

分类专栏

c++知识 6篇
linux专栏 41篇
力扣题目 61篇
nlp 8篇
JAVA邮件 1篇
JAVA SSM 4篇

最新评论

c++ set返回第一个值（最小值）和最后一个值（最大值）的方法
willzhang121: 看一个稍微有价值的文章,不是要关注,就是要收钱,
C++数字（int, long ,long long）和字符串之间相互转换
why_not_fly: 时间复杂度怎么说
c++ set返回第一个值（最小值）和最后一个值（最大值）的方法
toujuan: 太感谢了，博主orz
发生段错误的原因
CSDN-Ada助手: 非常感谢您的分享，这篇博客对于那些遇到段错误问题的开发者来说肯定能够起到很好的帮助作用。我觉得下一篇博客可以继续探讨一些常见的开发错误，比如内存泄漏、堆栈溢出等等，这样的技术文章对其他开发者也是非常有帮助的。希望您能够继续分享您的经验，相信会有更多读者受益于您的博客。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
linux read函数详解及应用
moveddown: 哥，标题是函数详解和应用，为什么啥都没有了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。