机器学习决策树模型实现-------鸢尾花的分类问题

最新推荐文章于 2023-04-05 01:00:00 发布

Amar la vida

最新推荐文章于 2023-04-05 01:00:00 发布

阅读量1.5k

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45672511/article/details/109579450

版权

机器学习决策树模型实现-------鸢尾花的分类问题

1）鸢尾花问题的数据通过如下方式生成
from sklearn.datasets import load_iris
iris=load_iris()
X=iris.data
Y=iris.target

2）通过如下方式引入决策树模块
from sklearn.tree import DecisionTreeClassifier
model=DecisionTreeClassifier(criterion=‘entropy’)

3）将数据集分为分成训练集和测试集
（ Iris也称鸢尾花卉数据集，由R.A.Fisher于1936年收集整理的。其中包含3种植物种类，分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾，每类50个样本，共150个样本。
Iris数据集每个样本包含了4个特征或属性：花萼长度、花萼宽度、花瓣长度和花瓣宽度。
鸢尾花的分类问题：给定某个鸢尾花的花萼长度、花萼宽度、花瓣长度和花瓣宽度，预测鸢尾花石山鸢尾、变色鸢尾和维吉尼亚鸢尾中的哪一种。）
讲每类鸢尾花50个样本采用train_test_split模块进行随机划分，再讲随机划分后的3个训练集（测试集）合并成总的训练集（测试集）
x=X.tolist()
y=Y.tolist() #讲数据集转化为列表形式
x1=x[0:50]
y1=y[0:50]
x2=x[50:100]
y2=y[50:100]
x3=x[100:150]
y3=y[100:150] #将数据集分类，即分成山鸢尾、变色鸢尾和维吉尼亚鸢尾三类数据集
X1_train,X1_test,Y1_train,Y1_test=train_test_split(x1,y1,test_size=0.3,random_state=32)
X2_train,X2_test,Y2_train,Y2_test=train_test_split(x2,y2,test_size=0.3,random_state=32)
X3_train,X3_test,Y3_train,Y3_test=train_test_split(x3,y3,test_size=0.3,random_state=32) #将分类后的数据集分片，分成训练集和测试集

  X_train=X1_train+X2_train+X3_train
  Y_train=Y1_train+Y2_train+Y3_train
  X_text=X1_test+X2_test+X3_test
  Y_text=Y1_test+Y2_test+Y3_test        #将分片后的训练集测试集合并成总的训练集测试集

model.fit(X_train,Y_train) #训练模型
model.predict(X_test) #预测模型
结果：array([1, 0, 0, 1, 2, 2, 0, 0, 1, 0, 1, 2, 1, 1, 2, 2, 1, 2, 1, 0, 0, 2,
2, 0, 0, 1, 0, 2, 0, 0, 1, 0, 0, 2, 1, 0, 0, 2, 2, 1, 0, 2, 0, 2,
0, 2, 1, 1, 1, 0])
model.predict_proba(X_test)
结果：
array([[0., 1., 0.],
[1., 0., 0.],
[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.],
[0., 0., 1.],
[1., 0., 0.],
[1., 0., 0.],
[0., 1., 0.],
[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.],
[0., 1., 0.],
[0., 1., 0.],
[0., 0., 1.],
[0., 0., 1.],
[0., 1., 0.],
[0., 0., 1.],
[0., 1., 0.],
[1., 0., 0.],
[1., 0., 0.],
[0., 0., 1.],
[0., 0., 1.],
[1., 0., 0.],
[1., 0., 0.],
[0., 1., 0.],
[1., 0., 0.],
[0., 0., 1.],
[1., 0., 0.],
[1., 0., 0.],
[0., 1., 0.],
[1., 0., 0.],
[1., 0., 0.],
[0., 0., 1.],
[0., 1., 0.],
[1., 0., 0.],
[1., 0., 0.],
[0., 0., 1.],
[0., 0., 1.],
[0., 1., 0.],
[1., 0., 0.],
[0., 0., 1.],
[1., 0., 0.],
[0., 0., 1.],
[1., 0., 0.],
[0., 0., 1.],
[0., 1., 0.],
[0., 1., 0.],
[0., 1., 0.],
[1., 0., 0.]])

model.score(x,y) #评估模型
结果：0.973333 #结果可能不一样

4）决策树的剪枝
如上，未剪枝模型的决策树评估结果为0.93，现在进行剪枝操作（剪枝：找到一颗深度尽可能小但是在测试集上精度为100%的决策树）。
ps：可以通过修改参数max_depth,min_sample_split,min_sample_leaf来实现剪枝过程
d=model.get_depth() #将决策树深度保存在变量中
model= DecisionTreeClassifier(criterion=‘entropy’,max_depth=d-1) #进行第一次剪枝操作
model.fit(X_train,Y_train)
model.predict_proba(X_test)
model.score(x，y) #对模型再次进行训练
结果：0.951377 #模型评估值减少，进行如下操作
model= DecisionTreeClassifier(criterion=‘entropy’,max_depth=d-1,min_samples_leaf=d+1) #进行第二次剪枝（更改为叶节点）
model.fit(Xtrain,Ytrain)
model.predict_proba(X_test)
model.score(Xtest,Ytest)
结果：0.983333 #模型评估值增加，进行如下操作
model= DecisionTreeClassifier(criterion=‘entropy’,max_depth=d-2) #进行第三次剪枝
model.fit(Xtrain,Ytrain)
model.predict_proba(X_test)
model.score(Xtest,Ytest)
结果：0.96733 #评估值减少，说明第二次剪枝已是最优剪枝方案，停止剪枝

Amar la vida

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习决策树模型实现-------鸢尾花的分类问题

机器学习决策树模型实现-------鸢尾花的分类问题1）鸢尾花问题的数据通过如下方式生成from sklearn.datasets import load_irisiris=load_iris()X=iris.dataY=iris.target2）通过如下方式引入决策树模块from sklearn.tree import DecisionTreeClassifiermodel=DecisionTreeClassifier(criterion=‘entropy’)3）将数据集分为分成训练集和
复制链接

扫一扫