【Python机器学习】衡量模型是否成功：训练数据&测试数据

最新推荐文章于 2024-09-24 10:29:11 发布

zhangbin_237

最新推荐文章于 2024-09-24 10:29:11 发布

阅读量424

点赞数 6

分类专栏： Python机器学习文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/weixin_39407597/article/details/135365466

版权

Python机器学习专栏收录该内容

225 篇文章 2 订阅

订阅专栏

本文介绍了如何在机器学习中使用scikit-learn库的train_test_split函数对数据集进行75%训练集和25%测试集的划分，以及如何应用到Iris数据集中进行示例操作，展示了数据的形状和拆分比例。

摘要由CSDN通过智能技术生成

在机器学习中，为了衡量模型是否成功，通常做法是吧将收集好的带标签数据分成两部分，一部分用于构建机器学习模型，叫做训练数据或训练集；其余数据用来评估模型性能，叫做测试数据、测试集或者留出集。

scikit-learn中的train_test_split函数可以打乱数据集并进行拆分。这个函数可以将75%的行数据及对应标签作为训练集，剩下25%的数据及标签作为测试集。

scikit-learn中的数据通常用大写的X表示，标签用小写的y表示。

对数据调用的train_test_split，并对输出结果采用下面的命名方法：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


iris_dataset=load_iris()
X_train,X_test,y_train,y_tst=train_test_split(
    iris_dataset['date'],iris_dataset['target'],random_state=0
)

数据统计：

#

print('X_train:{}'.format(X_train.shape))
print('y_train:{}'.format(y_train.shape))
print('X_test:{}'.format(X_test.shape))
print('y_test:{}'.format(y_test.shape))

#输出
X_train:(112, 4)
y_train:(112,)
X_test:(38, 4)
y_test:(38,)

可以看到，是以75%：25%的比例拆分数据的