2022-3-6日结

  1. 关于sklearn中的测试集和训练集的划分
 X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=0)

机器学习中可以用sklearn提供的train_test_split方法 按照我们所设置的比例将数据集分为测试集和训练集

# x_train:包括所有自变量,这些变量将用于训练模型,同样,我们已经指定测试_size=0.3,这意味着来自完整数据的70%的观察值将用于训练/拟合模型,其余30%将用于测试模型。
# y_train-这是因变量,需要此模型进行预测,其中包括针对自变量的类别标签,我们需要在训练/拟合模型时指定我们的因变量
# x_test:这是数据中剩余的30%的自变量部分,这些自变量将不会在训练阶段使用,并将用于进行预测,以测试模型的准确性。
# y_test-此数据具有测试数据的类别标签,这些标签将用于测试实际类别和预测类别之间的准确性。
# random_state:控制随机状态,固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。
#     random_state:设置随机数种子,保证每次都是同一个随机数。若为0或不填,则每次得到数据都不一样

train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数;使用train_test_split函数可以将原始数据集按照一定比例划分训练集和测试集对模型进行训练

x,y是原始的数据集。X_train,y_train 是原始数据集划分出来作为训练模型的,fit模型的时候用。

X_test,y_test 这部分的数据不参与模型的训练,而是用于评价训练出来的模型好坏,score评分的时候用。

test_size=0.2 测试集的划分比例。如果为浮点型,则在0.0-1.0之间,代表测试集的比例;如果为整数型,则为测试集样本的绝对数量;如果没有,则为训练集的补充。

random_state:是随机数的种子。固定随机种子时,同样的代码,得到的训练集数据相同。不固定随机种子时,同样的代码,得到的训练集数据不同。

原文链接:https://blog.csdn.net/skyejy/article/details/90647363

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值