2021大三机器学习：train_test_split方法详解

最新推荐文章于 2024-07-25 11:55:54 发布

我是X大魔王

最新推荐文章于 2024-07-25 11:55:54 发布

阅读量2.4w

点赞数 19

分类专栏：机器学习👑 文章标签： sklearn 机器学习方法详解

转载必须声明

本文链接：https://blog.csdn.net/Xmumu_/article/details/120677767

版权

机器学习👑 专栏收录该内容

12 篇文章 11 订阅

订阅专栏

大家好，这里是X😎😎😎如果你对train_test_split方法不理解的话，就赶紧往下看吧~~

在这里插入图片描述

文章目录

前言
函数样式+参数解释
- 参数
默认设置
- 主要参数说明：

前言

在之前的机器学习X说过了，机器学习一般分为“测试集”和“训练集”，那么具体我们该怎么分呢？这里就介绍这个方法啦——train_test_split()

函数样式+参数解释

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=3)
或者
X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

参数

train_target:要划分的样本结果

test_size:样本的占比

random_state:随机种子(这个东西是会根据你填的数字多少它对最终的数据结果是有影响的，如果你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。)

stratify:是为了保持split前类的分布，这个参数很重要，具体的方法讲解如下：
比如说你有100个样本数据，80个用于训练，20个用于测试，那么这个时候如果train_test_split(… test_size=0.25, stratify = y_all), 那么split之后数据如下：
training: 75个数据，其中60个用于训练，15个用于测试。
testing: 25个数据，其中20个用于训练，5个用于测试。

用了stratify参数，training集和testing集的类的比例是 4：1，等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。
总之就是帮助你平均一下比例用的

将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配

默认设置

主要参数说明：

*arrays

可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size

可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size

可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state

可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify

可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的

②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集

我是X大魔王

关注

19
点赞
踩
88

收藏

觉得还不错? 一键收藏
打赏
0
评论
2021大三机器学习：train_test_split方法详解

大家好，这里是X????????????如果你对train_test_split方法不理解的话，就赶紧往下看吧~~文章目录前言函数样式+参数解释参数默认设置主要参数说明：*arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框test_size：可以为浮点、整数或None，默认为Nonetrain_size：可以为浮点、整数或None，默认为Nonerandom_state：可以为整数、RandomState实例或None，默认为Nonestratify：可以为类似数组或No
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我是X大魔王 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。