决策树原理以及代码详解

最新推荐文章于 2024-08-04 21:08:26 发布

阴天了

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：决策树熵

本文链接：https://blog.csdn.net/sun_xiao_kai/article/details/93628096

版权

本文深入解析决策树，从熵的概念出发，探讨条件熵、信息增益和Gini系数，并介绍了决策树的过拟合处理方法如剪枝和随机森林。文章还提供了分类和回归的实验代码，展示了决策树的实际应用。

摘要由CSDN通过智能技术生成

本文为阅读决策树的个人理解所注笔记，仅供参考。学习决策树之前要理解一些概念信息熵（熵、联合熵、条件熵和互信息）决策树学习算法（信息增益、ID3、C4.5和CART）bagging和随机森林。

概念1、熵

熵：信息的不确定程度。源于信息论热力学第二定律。
举个栗子帮助大家理解什么是熵(信息的混乱程度)?
假设事件x的发生概率为 $p\left ( x \right )$ ，事件y的发生概率为 $p\left ( y \right )$ 。如果x,y独立，则x,y同时发生的联合概率就是 $p\left ( x,y \right )=p\left ( x \right )\cdot p\left ( y \right )$ 。如果想表示x,y交互度量视为0，使得满足可加性，即 $p\left ( x,y \right )=p\left ( x \right )\cdot p\left ( y \right )$ 可以表示为一种相加方式（乘积变成加和，方法就是log）。

提个问题：时间的概率发生大，其对应的熵如何呢？

举个栗子：
比如事件x：今天晚上我会吃饭
比如事件y：今天晚上我吃了10个馒头
对于事件x发生的概率很大（90%会发生），事件y发生的概率很小（5%）；对于事件x，其本身提供给外界的信息就很少，就意味着熵很小，而事件y熵很大。比如事件x发生1，不发生0，发生概率0.9，不发生概率0.1，则 $-lnp\left ( x \right )$ 可以表示成如下表格