利用决策树,KNN和朴素贝叶斯三种分类器,对鸢尾花数据集进行分类。下面是具体的流程和代码:
1、 数据读取:
实验数据是直接加载的sklearn内置的鸢尾花数据集,共150条数据,包含4个特征,而且是一个三分类问题。
from sklearn import datasets #导入方法类
iris = datasets.load_iris() #加载iris数据集
iris_feature = iris.data #加载特征数据
iris_target = iris.target #加载标签数据
2、 划分数据集:
鸢尾花数据集的特征是已经处理好的,所以这里可以跳过数据预处理的步骤,可以直接进行训练预测了。
但是在训练之前,要先把数据集划分成训练集和测试集,划分代码如下所示:
from sklearn.model_selection import train_test_split
##数据集划分
feature_train,feature_test,target_train,target_test = train_test_split(iris_feature,iris_target,test_size=0.33,random_state=42)
其中train_test_split()方法的参数包括:
(1) train_size :训练集比例
(2) test_size :测试集比例
(3) random_size :乱序程度
3、模型训练+预测:
首先是决策树分类器&#x