pandas训练集测试集划分_用pandas划分数据集实现训练集和测试集

最新推荐文章于 2023-01-06 16:56:28 发布

极客羊

最新推荐文章于 2023-01-06 16:56:28 发布

阅读量2.6k

点赞数 2

文章标签： pandas训练集测试集划分

本文链接：https://blog.csdn.net/weixin_36448245/article/details/111945810

版权

1、使用model_select子模块中的train_test_split函数进行划分

数据：使用kaggle上Titanic数据集

划分方法：随机划分

# 导入pandas模块，sklearn中model_select模块

import pandas as pd

from sklearn.model_select import train_test_split

# 读取数据

data = pd.read_csv('.../titanic_dataset/train.csv')

# 将特征划分到 X 中，标签划分到 Y 中

x = data.iloc[:, 2:]

y = data.loc['Survived']

# 使用train_test_split函数划分数据集(训练集占75%，测试集占25%)

x_train, x_test, y_train，y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

缺点：1、数据浪费严重，只对部分数据进行了验证

2、容易过拟合

2、k折交叉验证(kfold)

原理：将数据集划分成n个不相交的子集，每次选择其中一个作为测试集，剩余n-1个子集作为训练集，共生成 n 组数据

使用方法：sklearn.model_select.KFold(n_splits=5，shuffle=False，random_state=0)

参数说明：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注