2022-3-6日结

最新推荐文章于 2024-09-04 10:31:20 发布

何未了

最新推荐文章于 2024-09-04 10:31:20 发布

阅读量74

点赞数

分类专栏： python 笔记文章标签： python

本文链接：https://blog.csdn.net/syj1127_/article/details/123307566

版权

python 同时被 2 个专栏收录

6 篇文章 1 订阅

订阅专栏

笔记

3 篇文章 0 订阅

订阅专栏

关于sklearn中的测试集和训练集的划分

 X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=0)

机器学习中可以用sklearn提供的train_test_split方法按照我们所设置的比例将数据集分为测试集和训练集

# x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.3，这意味着来自完整数据的70%的观察值将用于训练/拟合模型，其余30%将用于测试模型。
# y_train-这是因变量，需要此模型进行预测，其中包括针对自变量的类别标签，我们需要在训练/拟合模型时指定我们的因变量
# x_test:这是数据中剩余的30%的自变量部分，这些自变量将不会在训练阶段使用，并将用于进行预测，以测试模型的准确性。
# y_test-此数据具有测试数据的类别标签，这些标签将用于测试实际类别和预测类别之间的准确性。
# random_state：控制随机状态,固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。
#     random_state：设置随机数种子，保证每次都是同一个随机数。若为0或不填，则每次得到数据都不一样

train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数；使用train_test_split函数可以将原始数据集按照一定比例划分训练集和测试集对模型进行训练

x，y是原始的数据集。X_train,y_train 是原始数据集划分出来作为训练模型的，fit模型的时候用。

X_test,y_test 这部分的数据不参与模型的训练，而是用于评价训练出来的模型好坏，score评分的时候用。

test_size=0.2 测试集的划分比例。如果为浮点型，则在0.0-1.0之间，代表测试集的比例；如果为整数型，则为测试集样本的绝对数量；如果没有，则为训练集的补充。

random_state：是随机数的种子。固定随机种子时，同样的代码，得到的训练集数据相同。不固定随机种子时，同样的代码，得到的训练集数据不同。

原文链接：https://blog.csdn.net/skyejy/article/details/90647363

何未了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2022-3-6日结

关于sklearn中的测试集和训练集的划分 X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=0)机器学习中可以用sklearn提供的train_test_split方法按照我们所设置的比例将数据集分为测试集和训练集# x_train:包括所有自变量，这些变量将用于训练模型，同样，我们已经指定测试_size=0.3，这意味着来自完整数据的70%的观察值将用于训练/拟合模型，其.
复制链接

扫一扫