3.5 决策树

追光而遇

已于 2022-05-12 18:37:01 修改

阅读量519

点赞数

分类专栏： python机器学习入门文章标签：决策树机器学习算法

于 2022-05-06 17:48:12 首次发布

本文链接：https://blog.csdn.net/Janna_woo/article/details/124134417

版权

python机器学习入门专栏收录该内容

26 篇文章 0 订阅

订阅专栏

本文深入探讨了决策树的分类原理，包括信息熵、信息增益等概念，并通过实例展示了如何利用决策树进行分类。在鸢尾花数据集上应用决策树，实现了数据分类并可视化。接着，利用决策树对泰坦尼克号乘客生存情况进行预测，介绍了数据处理、特征选择、模型训练和评估的完整流程。

摘要由CSDN通过智能技术生成

文章目录

3.5.1 认识决策树

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

怎么理解这句话？通过一个对话例子（相亲对话）
在这里插入图片描述

想一想这个女生为什么把年龄放在最上面判断！！！！！！！！！
为了高效的决策–>特征的先后顺序

3.5.2 决策树分类原理详解

为了更好理解决策树具体怎么分类的，我们通过一个问题例子？
已知四个特征预测是否贷款给某个人
在这里插入图片描述
问题：如何对这些客户进行分类预测？你是如何去划分？

有可能你的划分是这样的
在这里插入图片描述

那么我们怎么知道这些特征哪个更好放在最上面，那么决策树的真是划分是这样的在这里插入图片描述

根据最开始的数据可以看出，只要是有自己房子的人，最后的判断类别都是’是’
没有自己房子的，有工作的都是’是’，没有工作的都是‘否’
先看房子，在看工作 -->是否贷款只看了两个特征
如果先看年龄–>信贷情况–>工作看了三个特征才能觉得是否贷款

1. 原理

信息熵、信息增益等

需要用到信息论的知识！！！问题：通过例子引入信息熵
香农定义了信息：消除随机不定性的东西
最开始，我们不知道小明的年龄
小明说：我今年十八岁 ------>是信息
小华说：小明明年十九岁---->是否算信息？

答案：不是信息，因为通过小明自己说的话我们已经知道小明18，可以推断出明年19岁，小华的话并没有消除随机不定型的东西，不属于信息。

2. 信息熵的定义

信息的衡量–信息量–信息熵

H的专业术语称之为信息熵，单位为比特。

以上面银行贷款的例子，带入公式演示：
问题：来了一个新的某人，已知年龄，工作，房子，信贷情况，是否应该贷款给这个人

15个样本中，有6个“否”，9个“是”，所以总的不确定性：
H(总的信息熵)= -(6/15 * log₂6/15 +9/15 *1og₂ 9/15) ≈ 0.971

（决策树思路）哪个特征对不确定性影响最大，也就是加入这个特征后，不确定性减少对最多，那么我们就先这个特征

3. 决策树的划分依据之一------信息增益

定义与公式

特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D) 与 特征A给定条件下D的信息条件熵H(D|A) 之差，即公式为：
在这里插入图片描述

信息熵的计算：
在这里插入图片描述
条件熵的计算：

注：信息增益表示得知特征X的信息的不确定性减少的程度使得类Y的信息熵减少的程度

贷款特征重要计算

我们以年龄特征来计算：
年龄总共有三种情况：青年5、中年5、老年5
1、g(D, 年龄) = H(D) - H(D|年龄) = 0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年]

2、H(D) = -(6/15log(6/15)+9/15log(9/15))=0.971

3、H(青年) = -[(3/5)*log2(3/5) +(2/5)*log2(2/5)]
   H(中年)= -[(3/5)*log2(3/5) +(2/5)*log2(2/5)]
   H(老年)= -[(4/5)*log2(4/5)+(1/5)*log(1/5)]

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) = 0.313, g(D, A2) = 0.324, g(D, A3) = 0.420,g(D, A4) = 0.363。所以我们选择A3 作为划分的第一个特征。这样我们就可以一棵树慢慢建立

4. 决策树的三种算法实现

当然决策树的原理不止信息增益这一种，还有其他方法。但是原理都类似，我们就不去举例计算。

ID3
o 信息增益最大的准则
C4.5
o 信息增益比最大的准则
CART
o 分类树: 基尼系数最小的准则在sklearn中可以选择划分的默认原则
o 优势：划分更加细致（从后面例子的树显示来理解）

3.5.3 决策树API

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’ ,max_depth=None,random_state=None)

决策树分类器
criterion:默认是’gini’系数，也可以选择信息增益的熵’entropy’
max_depth:树的深度大小 -->设置适当大小，提高准确率，增加泛化能力
random_state:随机数种子

其中会有些超参数：max_depth:树的深度大小
其它超参数我们会结合随机森林讲解

使用决策树对鸢尾花数据集进行分类

# 用决策树对鸢尾花进行分类
# 1.获取数据集
# 2.划分数据集
# 3.决策树预估器分类
# 4.模型评估
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
# 为了与knn模型对比，选择一样的random_stat
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=22)

from sklearn.tree import DecisionTreeClassifier
estimator = DecisionTreeClassifier(criterion ="entropy")
estimator.fit(x_train,y_train)

y_predict= estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值：\n",y_test==y_predict)

score=estimator.score(x_test,y_test)
print("准确率为：\n",score)

from sklearn.tree import DecisionTreeClassifier,export_graphviz
export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names)

决策树可视化结果：（方法在下面）
在这里插入图片描述

结果对比分析：
knn的准确率达到 0.974 ；决策数准确率只有 0.895
150个样本 knn 的准确率更高；如果数据量更大，使用决策树会更好

3.5.4 决策树可视化

1. 保存数的结构到dot文件

sklearn.tree.export_graphviz() 该函数能够导出DOT格式
o tree.export_graphviz(estimator,out_file='tree.dot’,feature_names=[‘’,’’])
export_graphviz(dc, out_file="./tree.dot", feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', '女性', '男性'])
dot文件到内容是文本文件，不是树

dot文件当中的内容如下:

digraph Tree {
node [shape=box] ;
0 [label="petal width (cm) <= 0.75\nentropy = 1.584\nsamples = 112\nvalue = [39, 37, 36]"] ;
1 [label="entropy = 0.0\nsamples = 39\nvalue = [39, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="petal width (cm) <= 1.75\nentropy = 1.0\nsamples = 73\nvalue = [0, 37, 36]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="petal length (cm) <= 5.05\nentropy = 0.391\nsamples = 39\nvalue = [0, 36, 3]"] ;
2 -> 3 ;
4 [label="sepal length (cm) <= 4.95\nentropy = 0.183\nsamples = 36\nvalue = [0, 35, 1]"] ;
3 -> 4 ;
5 [label="sepal width (cm) <= 2.45\nentropy = 1.0\nsamples = 2\nvalue = [0, 1, 1]"] ;
4 -> 5 ;
6 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
5 -> 6 ;
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ;
5 -> 7 ;
8 [label="entropy = 0.0\nsamples = 34\nvalue = [0, 34, 0]"] ;
4 -> 8 ;
9 [label="petal width (cm) <= 1.55\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ;
3 -> 9 ;
10 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ;
9 -> 10 ;
11 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
9 -> 11 ;
12 [label="petal length (cm) <= 4.85\nentropy = 0.191\nsamples = 34\nvalue = [0, 1, 33]"] ;
2 -> 12 ;
13 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ;
12 -> 13 ;
14 [label="entropy = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ;
12 -> 14 ;
}

2. 网络显示结构

http://webgraphviz.com/

3.5.5 决策树总结

优点：
o 简单的理解和解释，树木可视化–>解释能力强
缺点：
o 决策树学习者可以创建不能很好地推广数据的过于复杂的树，容易产生过拟合
改进：
o 减枝cart算法(决策树API当中已经实现，随机森林参数调优有相关介绍)
o 随机森林
注：企业重要决策，由于决策树很好的分析能力，在决策过程应用较多，可以选择特征

3.5.6 案例：泰坦尼克号乘客生存预测

泰坦尼克号数据
在泰坦尼克号和titanic2数据帧描述泰坦尼克号上的个别乘客的生存状态。这里使用的数据集是由各种研究人员开始的。其中包括许多研究人员创建的旅客名单，由Michael A. Findlay编辑。我们提取的数据集中的特征是票的类别，存活，乘坐班，年龄，登陆，home.dest，房间，票，船和性别。

1、乘坐班是指乘客班（1，2，3），是社会经济阶层的代表

2、其中age数据存在缺失

数据：http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt
在这里插入图片描述

1. 流程分析

获取数据
数据处理—选择我们认为重要的几个特征 [‘pclass’, ‘age’, ‘sex’]
缺失值处理
特征值–>字典类型方便后续处理（需要进行one-hot编码处理(DictVectorizer)
x.to_dict(orient=“records”)
准备好特征值目标值
划分数据集
特征工程：字典特征抽取
决策树预估器流程
模型评估

2. 代码

import pandas as pd
# 1. 获取数据
# path = "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
# 这个网址有问题，我们选择自己传入网上能下载到的 泰坦尼克号训练数据集
# titanic = pd.read_csv(path)
# titanic
titanic = pd.read_csv("train.csv")
titanic
# 输出1

# 2.数据处理 筛选特征值和目标值
# row.names编号、name名字、home.dest目的地 等 都对存活结果无关
# pclass贵族、age年龄、sex性别 等 对存活结果有影响
x = titanic[["Pclass","Age","Sex"]]
y = titanic["Survived"]
x
# 输出2
y
# 输出3

# 2.数据处理 --- 缺失值处理
x["Age"].fillna(x["Age"].mean(),inplace=True)
x
# 输出4

# 特征值-->字典类型
x = x.to_dict(orient="recordes")
x
#输出5

# 3.划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=22)

# 4.字典特征抽取
from sklearn.feature_extraction import DictVectorizer
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

# 5.决策树评估
from sklearn.tree import DecisionTreeClassifier
# 调树的输出深度，不然太多了
estimator = DecisionTreeClassifier(criterion ="entropy",max_depth = 8)
estimator.fit(x_train,y_train)

y_predict= estimator.predict(x_test)
print("y_predict:\n",y_predict)
print("直接比对真实值和预测值：\n",y_test==y_predict)

score = estimator.score(x_test,y_test)
print("准确率为：\n",score)
# 输出6

3. 输出

输出1
输出2
输出3
输出4
输出5
输出6

4. 决策树可视化

在这里插入图片描述

追光而遇

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
3.5 决策树

1、认识决策树决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法怎么理解这句话？通过一个对话例子相亲对话想一想这个女生为什么把年龄放在最上面判断！！！！！！！！！2、决策树分类原理详解为了更好理解决策树具体怎么分类的，我们通过一个问题例子？银行贷款数问题：如何对这些客户进行分类预测？你是如何去划分？有可能你的划分是这样的贷款划分1那么我们怎么知道这些特征哪个更好放在最上面，那么决策树的真是划分是这样的贷款划
复制链接

扫一扫

专栏目录