在使用机器学习算法之前,通常我们需要先将数据集分为训练集和测试集。在分配训练集和测试集的时候,如果测试集的数据越小,对模型的泛化误差的估计将会越不准确。所以,在划分数据集的时候我们需要进行权衡。在实际应用中,基于整个数据集数据的大小,训练集数据和测试集数据的划分比例是6:4、7:3或8:2。对于庞大的数据可以使用9:1,甚至是99:1。
我们可以直接使用sklearn提供的train_test_split方法,按照我们所设置的比例将数据集分为测试集和训练集。所使用到的数据集是UCI机器学习样本数据库提供的葡萄酒样本,包含了178个葡萄酒样本,每个样本由13个不同特征组成,一共有三个不同类别的葡萄酒种类。
数据集下载地址:https://download.csdn.net/download/sinat_29957455/10274582
import pandas as pd
from sklearn.model_selection import train_test_split
if __name__ == "__main__":
data = pd.read_csv("G:/dataset/wine.csv")
#将样本分为x表示特征,