决策树算法实现

最新推荐文章于 2023-11-06 20:58:34 发布

南歌SN

最新推荐文章于 2023-11-06 20:58:34 发布

阅读量256

点赞数

本文链接：https://blog.csdn.net/weixin_42208645/article/details/89454297

版权

1)调用Python函数实现决策树算法：

①调用Sklearn库中的iris数据集

from itertools import product

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier


# 仍然使用自带的iris数据
iris = datasets.load_iris()
X = iris.data[:, [0, 2]]
y = iris.target

# 训练模型，限制树的最大深度4
clf = DecisionTreeClassifier(max_depth=4)
# 拟合模型
clf.fit(X, y)


# 画图
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
                     np.arange(y_min, y_max, 0.1))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, alpha=0.8)
plt.show()

②算法步骤：

树以代表训练样本的单个结点开始。

如果样本都在同一个类，则该结点成为树叶，并用该类标号。

否则，算法使用称为信息增益的基于熵的度量作为启发信息，选择能够最好地将样本分类的属性。该属性成为该结点的“测试”或“判定”属性。在算法的该版本中，所有的属性都是分类的，即离散值。连续属性必须离散化。

对测试属性的每个已知的值，创建一个分枝，并据此划分样本。

算法使用同样的过程，递归地形成每个划分上的样本判定树。一旦一个属性出现在一个结点上，就不在该结点的任何后代上考虑它。

递归划分步骤仅当下列条件之一成立停止：

(a) 给定结点的所有样本属于同一类。

(b) 没有剩余属性可以用来进一步划分样本。在此情况下，使用多数表决。这涉及将给定的结点转换成树叶，并用样本中的多数所在的类标记它。替换地，可以存放结点样本的类分布。

import sys
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.externals.six import StringIO
import pydotplus
iris = load_iris()  # 载入数据集
clf = tree.DecisionTreeClassifier()  # 算法模型
clf = clf.fit(iris.data, iris.target)  # 模型训练
dot_data = StringIO()
tree.export_graphviz(clf, out_file=dot_data)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("iris.pdf")  # 写入pdf

生成的pdf文件如下：

南歌SN

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树算法实现

1)调用Python函数实现决策树算法：①调用Sklearn库中的iris数据集from itertools import productimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.tree import DecisionTreeClassi...
复制链接

扫一扫