sklearn train_test_split 中stratify参数解析

最新推荐文章于 2025-04-07 15:35:49 发布

csdnypp

最新推荐文章于 2025-04-07 15:35:49 发布

阅读量1.1k

点赞数 4

分类专栏： python 文章标签： sklearn python 机器学习

本文链接：https://blog.csdn.net/csdnypp/article/details/126462241

版权

python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了在机器学习中使用`train_test_split`函数时，`stratify`参数的重要性。该参数确保训练集和测试集在目标变量分布上保持一致。例如，如果原始数据集中类别比例为2:8，那么在划分后的训练集和测试集中，这一比例也会得到保留。这对于保持模型评估的公正性和避免偏差至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from sklearn.model_selection import train_test_split
# 将'features'和'result'数据切分成训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(features, target, test_size = 0.2, random_state = 0,   stratify = target)

代码中stratify的作用：保持测试集与整个数据集里target的数据分类比例一致。

举个栗子：
整个数据集有1000行，target列的数据也是1000个，而且分两类：0和1，其中0有200个，1有800个，即数据分类的比例为2：8。

那么现在把整个数据split，因为test_size = 0.2，所以训练集分到800个数据，测试集分到200个数据。

重点来了
那么由于stratify = target，则训练集和测试集中的数据分类比例将与target一致，也是2：8，结果就是在训练集中，有160个0和640个1；测试集中有40个0和160个1。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csdnypp

关注关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用train_test_split划分数据集

2301_77444219的博客

06-27

3337

是sklearn库中的一个函数，用于将数据集分割为训练集和测试集。

sklearn train_test_split用法详解

weixin_45804601的博客

10-11

1069

【代码】sklearn train_test_split用法详解。

参与评论您还未登录，请先登录后发表或查看评论

sklearn中train_test_split里，参数stratify含义解析

u012413709的博客

04-17

1306

https://blog.csdn.net/weixin_45281949/article/details/102767177

【Digit Recognizer】train_test_split 中使用 stratify ,保持数据划分后训练集和测试集的类别分布与原数据集一致

热门推荐

乘风破浪会有时

03-14

3万+

from sklearn.model_selecting import train_test_spilt() 参数stratify：依据标签y，按原数据y中各类比例，分配给train和test，使得train和test中各类数据的比例与原数据集一样。 A:B:C=1:2:3 split后，train和test中，都是A:B:C=1:2:3 将stratify=X就是按照X中的比例分配将

Sklearn : train_test_split()函数的用法

DebugYing的博客

01-13

4694

Sklearn : train_test_split()函数的用法

python安装sklearn包含train tese_python – 对pandas的sklearn train_test_split按多列分层

weixin_39728124的博客

12-30

808

你得到重复的原因是因为train_test_split()最终将strata定义为你传递给stratify参数的任何值的唯一值集.由于分层是从两列定义的,因此一行数据可能代表多个层,因此采样可以选择同一行两次,因为它认为它是从不同的类中采样的.train_test_split()函数calls StratifiedShuffleSplit,其中y为uses np.unique()(这是你通过分层传...

sklearn.model_selection.train_test_split用法解析

liveshow021_jxb的博客

03-09

1023

一、API解析 sklearn.model_selection.train_test_split(*arrays,test_size=None,train_size=None,random_state=None,shuffle=True,stratify=None) 该函数核心功能是：将样本数组或者矩阵按随机的方式分成训练集和测试集。 *arrays：数据的整体样本，类型可以是lists，numpy arrays，scipy-sparse matrices，pandas datafra...

Cross_validation.train_test_split 中 stratify这个参数的意义是什么？

weixin_30514745的博客

01-29

1222

比单独使用train_test_split来划分数据更严谨 stratify是为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下： training: 75个数据，其中60个属于A类，15个属于B类。 testi...

机器学习工具之交叉验证数据集自动划分train_test_split

yiyisunshine的博客

04-18

3551

机器学习工具之交叉验证数据集自动划分 1. 使用方式： from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_split (train_data,train_lable,test_size=0.3,random_state=o,stratify=trai...

机器学习：训练集与测试集分割train_test_split

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

08-01

1万+

在使用机器学习训练模型算法的过程中，为提高模型的泛化能力、防止过拟合等目的，需要将整体数据划分为训练集和测试集两部分，训练集用于模型训练，测试集用于模型的验证。此时，使用train_test_split函数可便捷高效的实现数据训练集与测试集的划分。

sklearn中的train_test_split函数

weixin_67609590的博客

05-09

1338

可选参数，用于进行分层抽样。传入标签数组，保证划分后的训练集和测试集中各类别样本比例与原始数据集相同。: 单个数组或元组，表示需要划分的数据集。如果传入多个数组，则必须保证每个数组的第一维大小相同。函数是机器学习中一个非常重要的函数，它可以将数据集划分为训练集和测试集。: 测试集的大小（占总数据集的比例）。: 训练集的大小（占总数据集的比例）。: 是否随机打乱数据。互补，即训练集的大小为。表示训练集的特征数据，表示测试集的特征数据，表示训练集的标签数据，表示测试集的标签数据。，即普通的随机划分。

sklearn函数：train_test_split（分割训练集和测试集）

daijingxin的博客

03-05

1835

函数的功能是分割训练集和测试集。

train_test_split(X, y, test_size=0.2, stratify=y)

weixin_43858465的博客

04-18

1万+

参数 stratify=y : 按照数据集中y的比例分配给train和test，使得train和test中各类别数据的比例与原数据集的比例一致。举例：原数据集中有100条数据，A类有80条，B类有20条，且前80条全为A类。那么我们在不指定stratify参数的情况下，切分出前80条的数据就全部为A类。所以我们要设置stratify=y来使得切分出的测试集与训练集中包含的类别为...

sklearn学习：train_test_split

ninnyyan的博客

06-04

1404

train_test_split 是sklearn中一个用来随机分割train，test数据集的工具 sklearn.model_selection.train_test_split(*arrays, **options)[source] 需要注意的参数包括， 1. test_size test_size的参数类型可能有多种：如果为float型，需要介于0.0到1.0之间，表示要分...

Understanding Clouds from Satellite Images语义分割比赛中train_test_split与stratify配合使用

微电子学与固体电子学-俞驰

11-11

757

用法来自:https://www.kaggle.com/mobassir/keras-efficientnetb2-for-classifying-cloud 数据集中每张图片可能包含1种云朵到4种云朵不等。比赛要求返回rle格式的submission.csv 其中数据集分割代码如下: train_imgs, val_imgs = train_test_split(t...

sklearn train_test_split参数

08-15

`train_test_split`是`sklearn`中用于划分训练集和测试集的函数。它的常用参数如下： - `arrays`：需要划分的数据集，可以是一个或多个数组。通常包括特征矩阵和目标变量。 - `test_size`：测试集的大小。可以指定为浮点数（0.0到1.0）表示测试集占总样本的比例，或整数表示测试集的样本数量。 - `train_size`：训练集的大小。与`test_size`相似，可以指定为浮点数或整数。 - `random_state`：随机数种子，用于确保每次划分的结果一致。设定相同的种子将得到相同的划分结果。 - `shuffle`：是否在划分之前打乱数据。默认为`True`，即打乱数据后再进行划分。 - `stratify`：是否根据目标变量的类别进行分层采样。如果指定为目标变量的数组，那么划分后的训练集和测试集中将包含相同比例的各类样本。下面是一个示例代码： ```python from sklearn.model_selection import train_test_split X, y = load_data() # 加载数据 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ``` 在这个例子中，`X`和`y`是特征矩阵和目标变量。`test_size=0.2`表示将数据划分为80%的训练集和20%的测试集。`random_state=42`确保每次运行代码时得到相同的划分结果。希望能解答你的问题！如果有任何疑问，请随时提问。