决策树

最新推荐文章于 2024-04-19 10:58:56 发布

nolabel

最新推荐文章于 2024-04-19 10:58:56 发布

阅读量158

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33936417/article/details/89204128

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

参考视频：https://www.bilibili.com/video/av26086646/

参考文章：https://zhuanlan.zhihu.com/p/20794583

目录

一、特征选择

二、决策树生成

三、决策树剪枝

决策树，是一种基本的分类与回归方法，可看做 if-then 规则的集合。

决策树的路径特征：互斥且完备（即每一个样本均被且只能被一条路径所覆盖）

一、特征选择

若根据某特征进行分类的结果与随机分类的结果相差不大，则认为此特征不具备分类能力。

→ 用信息增益定义特征的分类能力。

例如，一棵决策树，在无分支的情况下，初始熵值为0.94；

加了一个分支后，熵值下降为0.693，信息增益(gain)=0.94-0.693

gain越大越好。

选择根节点时→选择gain最大的特征作为根节点。gain次大的作为第二节点

信息增益（gain）=H(D)-H(D|A)

→ 这里的H指熵（entropy）

引入熵的概念：

熵 entropy

——描述随机变量的不确定性

设X是一个有限状态的离散型随机变量，其概率分布为 $P(X = x_i) = p_i,\ i=1,2,\cdots,n$

则随机变量的熵定义为

$H(x)=-\sum_{i=1}^{n}p_{i}logp_{i}$

属性：entropy越大，越混乱。

怎么判断在一棵决策树中，把哪个特征当做根节点呢？→选择gain最大的特征作为根节点。gain次大的作为第二节点，依次类推。

举例，这里有四个特征（outlook、temperature、humidity、windy），需要根据这四个特征去决策是否play。

首先，需要算什么都不做的情况下的决策的自身熵值：H(x)=

即在无分支情况下，决策结果的自身熵值为0.94。

→ 接着，计算基于各个特征进行决策的熵

二、决策树生成

三、决策树剪枝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

参考视频：https://www.bilibili.com/video/av26086646/参考文章：https://zhuanlan.zhihu.com/p/20794583目录一、特征选择二、决策树生成三、决策树剪枝决策树，是一种基本的分类与回归方法，可看做 if-then 规则的集合。决策树的路径特征：互斥且完备（即每一个样本均被且只能被一条路径所覆盖）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。