使用sklearn将数据集分为训练集和测试集

最新推荐文章于 2024-03-03 23:29:57 发布

修炼之路

最新推荐文章于 2024-03-03 23:29:57 发布

阅读量6.2w

点赞数 9

分类专栏： scikit-learn修炼之路 python机器学习实战

本文链接：https://blog.csdn.net/sinat_29957455/article/details/79477940

版权

python机器学习实战同时被 2 个专栏收录

43 篇文章 829 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

scikit-learn修炼之路

22 篇文章 3 订阅

订阅专栏

在使用机器学习算法之前，通常我们需要先将数据集分为训练集和测试集。在分配训练集和测试集的时候，如果测试集的数据越小，对模型的泛化误差的估计将会越不准确。所以，在划分数据集的时候我们需要进行权衡。在实际应用中，基于整个数据集数据的大小，训练集数据和测试集数据的划分比例是6:4、7:3或8:2。对于庞大的数据可以使用9:1，甚至是99:1。

我们可以直接使用sklearn提供的train_test_split方法，按照我们所设置的比例将数据集分为测试集和训练集。所使用到的数据集是UCI机器学习样本数据库提供的葡萄酒样本，包含了178个葡萄酒样本，每个样本由13个不同特征组成，一共有三个不同类别的葡萄酒种类。

数据集下载地址：https://download.csdn.net/download/sinat_29957455/10274582

import pandas as pd
from sklearn.model_selection import train_test_split

if __name__ == "__main__":
    data = pd.read_csv("G:/dataset/wine.csv")
    #将样本分为x表示特征，

了解本专栏

超级会员免费看

修炼之路

关注

9
点赞
踩
86

收藏

觉得还不错? 一键收藏
打赏
2
评论
使用sklearn将数据集分为训练集和测试集

在使用机器学习算法之前，通常我们需要先将数据集分为训练集和测试集。在分配训练集和测试集的时候，如果测试集的数据越小，对模型的泛化误差的估计将会越不准确。所以，在划分数据集的时候我们需要进行权衡。在实际应用中，基于整个数据集数据的大小，训练集数据和测试集数据的划分比例是6:4、7:3或8:2。对于庞大的数据可以使用9:1，甚至是99:1。我们可以直接使用sklearn提供的train_test_sp...
复制链接

扫一扫