决策树(一)

决策树

  • 决策树是一种基本的分类方法,当然也可以用于回归。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪
  • 用于离散型数据

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理逻辑回归等不能解决的非线性特征数据
缺点:可能产生过度匹配问题
适用数据类型:数值型和标称型

算法有ID3算法,C4.5算法,CRAT算法

ID3算法

  • 信息熵
    在这里插入图片描述

  • 条件熵
    在这里插入图片描述

  • 信息增益 = 信息熵 - 条件熵

  • 决策树会选择最大化信息增益来选择根节点

实践决策树例子

from sklearn.feature_extraction import DictVectorizer   # 将特征与值的映射字典组成的列表转换成向量
from sklearn import tree    # 导入决策树库
from sklearn import preprocessing   # 数据标准化
import csv
import numpy as np

# 读入数据
# 文件是很多字符,使用csv来读取
tree_1 = open('D:/数据/决策树.csv', encoding='utf-8')
tree_data = csv.reader(tree_1)

# 获取第一行数据
headers = tree_data.__next__()
print(headers)

# 定义两个列表
featureList = []   # 保存特征
labelList = []     # 保存标签

# 上面读取了一行之后指针指向了下一行
for row in tree_data:
    # 保存label
    labelList.append(row[-1])
    rowDict = {}
    for i in range(1, len(row)-1):
        # 建立一个数据字典
        rowDict[headers[i]] = row[i]
    # 把数据存入list
    featureList.append(rowDict)
print(featureList)

# 把数据转化成0和1表示
vec = DictVectorizer()      # 实例化类
# 对字典列表进行转换,转换成特征矩阵
x_data = vec.fit_transform(featureList).toarray()
print(x_data)

# 打印属性名称
print(vec.get_feature_names())

# 打印标签
print(str(labelList))

# 把标签转化为0和1表示
label = preprocessing.LabelBinarizer()
y_data = label.fit_transform(labelList)
print(str(y_data))

# 创建决策树模型
# criterion参数默认是gini(基尼)指数使用的是CART算法; entropy是信息熵,使用的是ID3算法
model = tree.DecisionTreeClassifier(criterion='entropy')
# 建立模型
model.fit(x_data, y_data)

# 测试
# x_text = x_data[0]
x_text = np.array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])
print("x_text:", str(x_text))
# 使用测试集做模型效果检验
predict = model.predict(x_text.reshape(1, -1))   # 转化成二维数据
print("predict:", predict)

'''
[[0. 0. 1. 0. 1. 1. 0. 0. 1. 0.]
 [0. 0. 1. 1. 0. 1. 0. 0. 1. 0.]
 [1. 0. 0. 0. 1. 1. 0. 0. 1. 0.]
 [0. 1. 0. 0. 1. 0. 0. 1. 1. 0.]
 [0. 1. 0. 0. 1. 0. 1. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 1. 0. 0. 1.]
 [1. 0. 0. 1. 0. 0. 1. 0. 0. 1.]
 [0. 0. 1. 0. 1. 0. 0. 1. 1. 0.]
 [0. 0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [0. 1. 0. 0. 1. 0. 0. 1. 0. 1.]
 [0. 0. 1. 1. 0. 0. 0. 1. 0. 1.]
 [1. 0. 0. 1. 0. 0. 0. 1. 1. 0.]
 [1. 0. 0. 0. 1. 1. 0. 0. 0. 1.]
 [0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]
 
['age=middle_age', 'age=senior', 'age=youth', 'credit_ratie=excellent', 'credit_ratie=fair', 'income=high', 'income=low', 'income=medium', 'student=no', 'student=yes']

['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']

[[0]
 [0]
 [1]
 [1]
 [1]
 [0]
 [1]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]
 [0]]
 
x_text: [1 1 1 1 1 1 1 1 1 1]

predict: [1]

'''
该表为数据表以及展示了特征矩阵是怎么实现的

在这里插入图片描述

导出决策树

import graphviz

安装

  • pip3 install graphviz
  • https//:www.graphviz.org/ 下载graphviz
# 导出决策树
# 需要用到上面的代码
import graphviz

data = tree.export_graphviz(
    model,
    out_file=None,
    feature_names=vec.get_feature_names(),
    class_names=label.classes_,
    filled=True,
    rounded=True,
    special_characters=True
)

graph = graphviz.Source(data)
graph.render('computer')

在这里插入图片描述

preprocessing更多知识请阅读下面文章
https://www.cnblogs.com/nobbyoucanyouup/p/9015940.html

DictVectorizer更多知识请阅读下面文章
https://www.cnblogs.com/hufulinblog/p/10591339.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

!一直往南方开.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值