决策树
- 决策树是一种基本的分类方法,当然也可以用于回归。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪
- 用于离散型数据
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理逻辑回归等不能解决的非线性特征数据
缺点:可能产生过度匹配问题
适用数据类型:数值型和标称型
算法有ID3算法,C4.5算法,CRAT算法
ID3算法
-
信息熵
-
条件熵
-
信息增益 = 信息熵 - 条件熵
-
决策树会选择最大化信息增益来选择根节点
实践决策树例子
from sklearn.feature_extraction import DictVectorizer # 将特征与值的映射字典组成的列表转换成向量
from sklearn import tree # 导入决策树库
from sklearn import preprocessing # 数据标准化
import csv
import numpy as np
# 读入数据
# 文件是很多字符,使用csv来读取
tree_1 = open('D:/数据/决策树.csv', encoding='utf-8')
tree_data = csv.reader(tree_1)
# 获取第一行数据
headers = tree_data.__next__()
print(headers)
# 定义两个列表
featureList = [] # 保存特征
labelList = [] # 保存标签
# 上面读取了一行之后指针指向了下一行
for row in tree_data:
# 保存label
labelList.append(row[-1])
rowDict = {}
for i in range(1, len(row)-1):
# 建立一个数据字典
rowDict[headers[i]] = row[i]
# 把数据存入list
featureList.append(rowDict)
print(featureList)
# 把数据转化成0和1表示
vec = DictVectorizer() # 实例化类
# 对字典列表进行转换,转换成特征矩阵
x_data = vec.fit_transform(featureList).toarray()
print(x_data)
# 打印属性名称
print(vec.get_feature_names())
# 打印标签
print(str(labelList))
# 把标签转化为0和1表示
label = preprocessing.LabelBinarizer()
y_data = label.fit_transform(labelList)
print(str(y_data))
# 创建决策树模型
# criterion参数默认是gini(基尼)指数使用的是CART算法; entropy是信息熵,使用的是ID3算法
model = tree.DecisionTreeClassifier(criterion='entropy')
# 建立模型
model.fit(x_data, y_data)
# 测试
# x_text = x_data[0]
x_text = np.array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
print("x_text:", str(x_text))
# 使用测试集做模型效果检验
predict = model.predict(x_text.reshape(1, -1)) # 转化成二维数据
print("predict:", predict)
'''
[[0. 0. 1. 0. 1. 1. 0. 0. 1. 0.]
[0. 0. 1. 1. 0. 1. 0. 0. 1. 0.]
[1. 0. 0. 0. 1. 1. 0. 0. 1. 0.]
[0. 1. 0. 0. 1. 0. 0. 1. 1. 0.]
[0. 1. 0. 0. 1. 0. 1. 0. 0. 1.]
[0. 1. 0. 1. 0. 0. 1. 0. 0. 1.]
[1. 0. 0. 1. 0. 0. 1. 0. 0. 1.]
[0. 0. 1. 0. 1. 0. 0. 1. 1. 0.]
[0. 0. 1. 0. 1. 0. 1. 0. 0. 1.]
[0. 1. 0. 0. 1. 0. 0. 1. 0. 1.]
[0. 0. 1. 1. 0. 0. 0. 1. 0. 1.]
[1. 0. 0. 1. 0. 0. 0. 1. 1. 0.]
[1. 0. 0. 0. 1. 1. 0. 0. 0. 1.]
[0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]
['age=middle_age', 'age=senior', 'age=youth', 'credit_ratie=excellent', 'credit_ratie=fair', 'income=high', 'income=low', 'income=medium', 'student=no', 'student=yes']
['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']
[[0]
[0]
[1]
[1]
[1]
[0]
[1]
[0]
[1]
[1]
[1]
[1]
[1]
[0]]
x_text: [1 1 1 1 1 1 1 1 1 1]
predict: [1]
'''
该表为数据表以及展示了特征矩阵是怎么实现的
导出决策树
import graphviz
安装
- pip3 install graphviz
- https//:www.graphviz.org/ 下载graphviz
# 导出决策树
# 需要用到上面的代码
import graphviz
data = tree.export_graphviz(
model,
out_file=None,
feature_names=vec.get_feature_names(),
class_names=label.classes_,
filled=True,
rounded=True,
special_characters=True
)
graph = graphviz.Source(data)
graph.render('computer')
preprocessing更多知识请阅读下面文章
https://www.cnblogs.com/nobbyoucanyouup/p/9015940.html
DictVectorizer更多知识请阅读下面文章
https://www.cnblogs.com/hufulinblog/p/10591339.html