决策树（一）

最新推荐文章于 2022-11-14 14:50:50 发布

!一直往南方开.

最新推荐文章于 2022-11-14 14:50:50 发布

阅读量352

点赞数

分类专栏：机器学习文章标签：机器学习决策树特征矩阵 graphivz

本文链接：https://blog.csdn.net/qq_44205272/article/details/102924684

版权

机器学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

决策树

决策树是一种基本的分类方法，当然也可以用于回归。决策树模型呈树形结构。在分类问题中，表示基于特征对实例进行分类的过程，它可以认为是if-then规则的集合。在决策树的结构中，每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤：特征选择、决策树的生成和决策树的修剪
用于离散型数据

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理逻辑回归等不能解决的非线性特征数据
缺点：可能产生过度匹配问题
适用数据类型：数值型和标称型

算法有ID3算法，C4.5算法，CRAT算法

ID3算法

信息熵
条件熵
信息增益 = 信息熵 - 条件熵
决策树会选择最大化信息增益来选择根节点

实践决策树例子

from sklearn.feature_extraction import DictVectorizer   # 将特征与值的映射字典组成的列表转换成向量
from sklearn import tree    # 导入决策树库
from sklearn import preprocessing   # 数据标准化
import csv
import numpy as np

# 读入数据
# 文件是很多字符，使用csv来读取
tree_1 = open('D:/数据/决策树.csv', encoding='utf-8')
tree_data = csv.reader(tree_1)

# 获取第一行数据
headers = tree_data.__next__()
print(headers)

# 定义两个列表
featureList = []   # 保存特征
labelList = []     # 保存标签

# 上面读取了一行之后指针指向了下一行
for row in tree_data:
    # 保存label
    labelList.append(row[-1])
    rowDict = {}
    for i in range(1, len(row)-1):
        # 建立一个数据字典
        rowDict[headers[i]] = row[i]
    # 把数据存入list
    featureList.append(rowDict)
print(featureList)

# 把数据转化成0和1表示
vec = DictVectorizer()      # 实例化类
# 对字典列表进行转换，转换成特征矩阵
x_data = vec.fit_transform(featureList).toarray()
print(x_data)

# 打印属性名称
print(vec.get_feature_names())

# 打印标签
print(str(labelList))

# 把标签转化为0和1表示
label = preprocessing.LabelBinarizer()
y_data = label.fit_transform(labelList)
print(str(y_data))

# 创建决策树模型
# criterion参数默认是gini（基尼）指数使用的是CART算法； entropy是信息熵，使用的是ID3算法
model = tree.DecisionTreeClassifier(criterion='entropy')
# 建立模型
model.fit(x_data, y_data)

# 测试
# x_text = x_data[0]
x_text = np.array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
print("x_text:", str(x_text))
# 使用测试集做模型效果检验
predict = model.predict(x_text.reshape(1, -1))   # 转化成二维数据
print("predict:", predict)

'''
[[0. 0. 1. 0. 1. 1. 0. 0. 1. 0.]
 [0. 0. 1. 1. 0. 1. 0. 0. 1. 0.]
 [1. 0. 0. 0. 1. 1. 0. 0. 1. 0.]
 [0. 1. 0. 0. 1. 0. 0. 1. 1. 0.]
 [0. 1. 0. 0. 1. 0. 1. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 1. 0. 0. 1.]
 [1. 0. 0. 1. 0. 0. 1. 0. 0. 1.]
 [0. 0. 1. 0. 1. 0. 0. 1. 1. 0.]
 [0. 0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [0. 1. 0. 0. 1. 0. 0. 1. 0. 1.]
 [0. 0. 1. 1. 0. 0. 0. 1. 0. 1.]
 [1. 0. 0. 1. 0. 0. 0. 1. 1. 0.]
 [1. 0. 0. 0. 1. 1. 0. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]
 
['age=middle_age', 'age=senior', 'age=youth', 'credit_ratie=excellent', 'credit_ratie=fair', 'income=high', 'income=low', 'income=medium', 'student=no', 'student=yes']

['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']

[[0]
 [0]
 [1]
 [1]
 [1]
 [0]
 [1]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]
 [0]]
 
x_text: [1 1 1 1 1 1 1 1 1 1]

predict: [1]

'''

该表为数据表以及展示了特征矩阵是怎么实现的

在这里插入图片描述

导出决策树

import graphviz

安装

pip3 install graphviz
https//:www.graphviz.org/ 下载graphviz

# 导出决策树
# 需要用到上面的代码
import graphviz

data = tree.export_graphviz(
    model,
    out_file=None,
    feature_names=vec.get_feature_names(),
    class_names=label.classes_,
    filled=True,
    rounded=True,
    special_characters=True
)

graph = graphviz.Source(data)
graph.render('computer')

在这里插入图片描述

preprocessing更多知识请阅读下面文章
https://www.cnblogs.com/nobbyoucanyouup/p/9015940.html

DictVectorizer更多知识请阅读下面文章
https://www.cnblogs.com/hufulinblog/p/10591339.html

!一直往南方开.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
决策树（一）

决策树决策树是一种基本的分类方法，当然也可以用于回归。决策树模型呈树形结构。在分类问题中，表示基于特征对实例进行分类的过程，它可以认为是if-then规则的集合。在决策树的结构中，每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤：特征选择、决策树的生成和决策树的修剪用于离散型数据优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理逻辑回归等不能解决...
复制链接

扫一扫