关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

我是真的菜啊啊

已于 2023-07-10 11:43:06 修改

阅读量2w

点赞数 28

分类专栏：深度学习文章标签： python 机器学习深度学习

于 2021-12-08 17:11:25 首次发布

本文链接：https://blog.csdn.net/qq_42671928/article/details/121796069

版权

深度学习专栏收录该内容

4 篇文章 2 订阅

订阅专栏

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

train_data：
所要划分的样本特征集（数据集）

train_target：
所要划分的样本结果（标签）

test_size：
测试集样本占总数据集的比例

random_state：
随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

stratify是为了保持split前类的分布：
比如有100个数据，80个属于A类，20个属于B类。如果train_test_split(… test_size=0.25, stratify = y_all), 那么split之后数据如下：
training: 75个数据，其中60个属于A类，15个属于B类。
testing: 25个数据，其中20个属于A类，5个属于B类。

用了stratify参数，training集和testing集的类的比例是 A：B= 4：1，等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配

1. x_train:
包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。
2. y_train：
这是因变量，需要此模型进行预测，其中包括针对自变量的类别标签，我们需要在训练/拟合模型时指定我们的因变量
3. x_test：
这是数据中剩余的40%的自变量部分，这些自变量将不会在训练阶段使用，并将用于进行预测，以测试模型的准确性。
4. y_test：
此数据具有测试数据的类别标签，这些标签将用于测试实际类别和预测类别之间的准确性。
5. random_state：
控制随机状态,固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

我是真的菜啊啊

关注

28
点赞
踩
179

收藏

觉得还不错? 一键收藏
9
评论
关于x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)找了很久都没有一个准确的答案，很多答案对y_train和 y_test的解释非常模糊。后来才找到一个合理的解释，原来：x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.4，这意味着来自完整数据的60%的观察值将用于训练/拟合模型，其余40%将用于测试模型。y_train-这是因变量
复制链接

扫一扫

专栏目录