机器学习算法——决策树

最新推荐文章于 2024-06-18 15:40:50 发布

Chercheer

最新推荐文章于 2024-06-18 15:40:50 发布

阅读量2.6k

点赞数

分类专栏：机器学习 python 文章标签：机器学习 python sklearn 数据分析二叉树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cherdw/article/details/54928619

版权

基本概念

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。
三种结点：
- 根结点：没有入边，但有零条或者多条出边
- 内部结点：恰有一条入边和两条或多条出边
- 叶结点：恰有一条入边，但没有出边
种类：
- 分类树：对离散变量做决策树
- 回归树：对连续变量做决策树

相关数学知识

信息熵(entropy)：

信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上，信息熵其实是信息量的期望。（参见知乎：https://www.zhihu.com/question/22178202）

理解：

熵：表示随机变量的不确定性。

条件熵：在一个条件下，随机变量的不确定性。

信息增益：熵- 条件熵，在一个条件下，信息不确定性减少的程度。

通俗地讲，X(明天下雨)是一个随机变量，X的熵可以算出来，Y(明天阴天)也是随机变量，在阴天情况下下雨的信息熵我们如果也知道的话（此处需要知道其联合概率分布或是通过数据估计）即是条件熵。两者相减就是信息增益！原来明天下雨例如信息熵是2，条件熵是0.01（因为如果是阴天就下雨的概率很大，信息就少了），这样相减后为1.99，在获得阴天这个信息后，下雨信息不确定性减少了1.99，是很多的，所以信息增益大。也就是说，阴天这个信息对下雨来说是很重要的！

所以在特征选择的时候常常用信息增益，如果IG（信息增益大）的话那么这个特征对于分类来说很关键，决策树就是这样来找特征的。

（参见知乎：

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法——决策树

基本概念决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。三种结点：根结点：没有入边，但有零条或者多条出边内部结点：恰有一条入边和两条或多条出边叶结点：恰有一条入边，但没有出边种类：分类树：对离散变量做决策树回归树：对连续变量做决策树相关数学知识信息熵(entropy
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。