初级算法班（3）—决策树

最新推荐文章于 2021-10-26 19:55:14 发布

orient928

最新推荐文章于 2021-10-26 19:55:14 发布

阅读量289

点赞数

分类专栏：机器学习初级算法

本文链接：https://blog.csdn.net/orient928/article/details/89005125

版权

写在前面：由于连续报了几个班，加上实验室老师催着写专利，没有时间亲自打代码，就按照群里给的大纲从网上找了一些信息直接po出来，同样由于时间问题没有手打公式，仍然是图片，后期有时间会尽量把公式打出来并亲自实操下sklearn来优化该博客。

文章目录

一. 信息论基础
二. 决策树的不同分类算法
三. 回归树生成
四. 决策树防止过拟合手段
五. 模型评估

一. 信息论基础

1.熵

熵度量了事物的不确定性，越不确定的事物，它的熵就越大。假设随机变量X的可能取值有 $x_1$ , $x_2$ … $x_n$ ,对于每一个可能的取值 $x_i$ ，其概率P(X= $x_i$ ) = $p_i$ , (i=1,2,…,n) ,因此随机变量X的熵：
在这里插入图片描述

2.联合熵

将一维随机变量分布推广到多维随机变量分布，则其联合熵 (Joint entropy) 为：
在这里插入图片描述

1、熵只依赖于随机变量的分布,与随机变量取值无关，所以也可以将 X 的熵记作 H§。
2、令0log0=0(因为某个取值概率可能为0)。

3.条件熵

条件熵H(Y∣X) H(Y|X)H(Y∣X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y∣X) H(Y|X)H(Y∣X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望：
在这里插入图片描述
条件熵 H(Y∣X) H(Y|X)H(Y∣X)相当于联合熵 H(X,Y)减去单独的熵 H(X)，即

4.信息增益

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里只的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下：
在这里插入图片描述

5.基尼不纯度

从一个数据集中随机选取子项，度量其被错误的划分到其他组里的概率。简单理解就是一个随机事件变成它的对立事件的概率。计算公式：（fi为某概率事件发生的概率）
在这里插入图片描述

一个随机事件Y ，P(Y=0) = 0.1 ,P(Y=1)=0.9
那么基尼不纯度就为P(Y=0)(1 - P(Y=0)) + P(Y=1)(1 - P(Y=1)) = 0.18
很明显 X比Y更混乱，因为两个都为0.5 很难判断哪个发生。而Y就确定得多ÿ

最低0.47元/天解锁文章

orient928

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初级算法班（3）—决策树

写在前面：由于连续报了几个班，加上实验室老师催着写专利，没有时间亲自打代码，就按照群里给的大纲从网上找了一些信息直接po出来，同样由于时间问题没有手打公式，仍然是图片，后期有时间会尽量把公式打出来并亲自实操下sklearn来优化该博客。文章目录一. 信息论基础1.熵2.联合熵3.条件熵4.信息增益5.基尼不纯度6.小结二. 决策树的不同分类算法1.ID3算法2.C4.5算法3.CART算法三. ...
复制链接

扫一扫