Python实现决策树算法预测

最新推荐文章于 2024-05-23 23:44:50 发布

kylinxjd

最新推荐文章于 2024-05-23 23:44:50 发布

阅读量1.7w

点赞数 24

分类专栏：机器学习文章标签： python 机器学习决策树

本文链接：https://blog.csdn.net/kylinxjd/article/details/99651390

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、概念

决策树是一种从无次序、无规则的样本数据集中推理出决策树表示形式的分类规则方法。决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。
在决策树算法中有一个非常重要的概念：信息熵
信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。
信息熵的计算公式
在这里插入图片描述
其中x_i 是变量。p(x_i)是变量x_i发生的概率
例如：小明明天出去玩的概率是0.6，不出去玩的概率是0.4
那么信息熵是 H(x) = – 0.6log₂0.6 – 0.4log₂0.4 = 0.9709508

python检验

假设小王根据电影的类型，国家和口碑决定去不去看一场电影
下面是小王过去的8次决定
在这里插入图片描述
watch代表有没有去看，yes是去看了，no是没去看
代码：

# 导入机器学习的相关包
import csv
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing, tree

从csv文件里读取训练集数据
在这里插入图片描述
将影响小王决定的特征用字典的形式保存

提取特征

# 从字典特区特征
vec = DictVectorizer(sparse=False)
# 转换成稀疏矩阵（数组表示）
dummyX = vec.fit_transform(feature_list)
# 打印特征名称
print(vec.get_feature_names())
print(dummyX)
# 将结果转换成数组
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(result_list)
print(dummyY)

在这里插入图片描述
创建决策树

# 创建决策树
clf = tree.DecisionTreeClassifier(criterion='entropy', random_state=0)
clf = clf.fit(dummyX, dummyY)
print("clf(决策树):", str(clf))

在这里插入图片描述
将决策树保存为可视化图片

import pydotplus
# 导出决策树为图片
dot_data = tree.export_graphviz(clf,
                                feature_names=vec.get_feature_names(),
                                filled=True,
                                rounded=True,
                                special_characters=True,
                                out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("film.pdf")

在这里插入图片描述
在保存pdf的时候Windows可能会遇到Graphviz找不到的情况，这时要下载一个安装包，
https://graphviz.gitlab.io/_pages/Download/Download_windows.html
Windows有单独的安装包，下载后直接安装，然后把安装路径下的bin文件夹添加到环境变量
如果还不行，在程序最上方添加如下两行代码就行了

import os
os.environ["PATH"] += os.pathsep + 'D:/SoftWare/Graphviz2.38/bin/'
#  D:/SoftWare/Graphviz2.38/bin/为自己的安装路径

预测

a = ([[0,1,0,0,1,0,1,0,0]])   # 中国 高票房  动作片

pre_result = clf.predict(a)
print("预测结果", str(pre_result))

在这里插入图片描述

a = ([[0,1,0,0,0,1,0,1,0]])   # 中国 低票房  爱情片

pre_result = clf.predict(a)
print("预测结果", str(pre_result))

在这里插入图片描述

完整代码

import csv
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing, tree
import pydotplus

film_data = open('film.csv','rt')
reader = csv.reader(film_data)
headers=next(reader)

feature_list = []  # 特征值
result_list = []   # 小王决定的结果

for row in reader:
    result_list.append(row[-1])
    feature_list.append(dict(zip(headers[1:-1], row[1:-1])))
print(result_list)
for i in feature_list:
    print(i)

# 从字典特区特征
vec = DictVectorizer(sparse=False)
# 转换成稀疏矩阵（数组表示）
dummyX = vec.fit_transform(feature_list)
# 将结果转换成数组
lb = preprocessing.LabelBinarizer()
dummyY = lb.fit_transform(result_list)

# 创建决策树
clf = tree.DecisionTreeClassifier(criterion='entropy', random_state=0)
clf = clf.fit(dummyX, dummyY)

# 导出决策树为图片
dot_data = tree.export_graphviz(clf,
                                feature_names=vec.get_feature_names(),
                                filled=True,
                                rounded=True,
                                special_characters=True,
                                out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("film.pdf")

# 预测
a = ([[0,1,0,0,0,1,0,1,0]])   # 中国 低票房  爱情片

pre_result = clf.predict(a)
print("预测结果", str(pre_result))

kylinxjd

关注

24
点赞
踩
208

收藏

觉得还不错? 一键收藏
3
评论
Python实现决策树算法预测

决策树是一种从无次序、无规则的样本数据集中推理出决策树表示形式的分类规则方法。决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。本文python检验决策树算法。
复制链接

扫一扫

专栏目录