【机器学习】决策树（一）——简单理解决策树

最新推荐文章于 2024-05-22 11:25:42 发布

Day-yong

最新推荐文章于 2024-05-22 11:25:42 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Daycym/article/details/80740360

版权

机器学习专栏收录该内容

50 篇文章 46 订阅

订阅专栏

思考

什么是决策树？
信息熵概念？

1. 什么是决策树？

决策树（Decision Tree）是一种基本的分类和回归的方法。本篇主要讨论用于分类的决策树。

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种形式：内部结点和叶节点。

内部结点：表示一个特征或属性
叶节点：表示一个类

1.1 决策树直观理解

下面我们通过一个例子来理解决策树，若我们有一下数据，要求通过以下数据，判断某用户是否能够偿还债务。

这里写图片描述

1.2 构建过程简述

用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子结点；这时，每一个子结点对应着该特征的一个值。如此递归地对实例进行测试分配，直到达到叶节点。最后将实例分到叶节点的类中。

这里写图片描述

注：对于如何根据特征构建决策树，关注以后的博客更新。

1.3 根据构建方法构建决策树

这里写图片描述

根据数据，我们主观上觉得年收入对于是否能够偿还债务最重要，所以将年收入作为根结点。年收入大于等于97.5千元的可以偿还，对于小于97.5的，再用是否拥有房产进行划分，最后根据婚姻情况进行划分，直到到达叶节点为止。

当构建好一个决策树后，新来一个用户后，可以根据决策好的模型直接进行判断，比如新用户为：无房产、单身、年收入55K，那么根据判断得出该用户无法偿还债务。

2. 信息熵

为了便于以后对信息增益的理解，先给出熵与条件熵的定义：

熵，是表示随机变量不确定性的度量。

如果待分类的事务可能划分在多个分类中，则符号 $x_i$ 的信息定义为：

I (x i) = - l o g 2 p (x i)

$I(x_i)=-log_2p(x_i)$
熵定义为信息的期望值：

H = - \sum i = 1 n p (x i) l o g 2 p (x i)

$H = -\sum_{i=1}^{n}p(x_i)log_2p(x_i)$

条件熵：

H (Y | X) = H (X, Y) - H (X)

$H(Y|X)=H(X,Y)-H(X)$

条件熵表示：在已知随机变量X的条件下随机变量Y 的不确定性。X给定条件下Y的条件概率分布的熵对X的数学期望。

这边只简单提了下熵和条件熵，后面特征选择中会用到信息增益与信息增益比
信息增益与信息增益比都是通过熵和条件熵得到
对此不理解的可以查看相关资料，补充一下

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】决策树（一）——简单理解决策树

思考什么是决策树？信息熵概念？1. 什么是决策树？决策树（Decision Tree）是一种基本的分类和回归的方法。本篇主要讨论用于分类的决策树。分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种形式：内部结点和叶节点。内部结点：表示一个特征或属性叶节点：表示一个类1.1 决策树直观理解...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。