初级算法班(3)—决策树

写在前面:由于连续报了几个班,加上实验室老师催着写专利,没有时间亲自打代码,就按照群里给的大纲从网上找了一些信息直接po出来,同样由于时间问题没有手打公式,仍然是图片,后期有时间会尽量把公式打出来并亲自实操下sklearn来优化该博客。

一. 信息论基础

1.熵

熵度量了事物的不确定性,越不确定的事物,它的熵就越大。假设随机变量X的可能取值有 x 1 x_1 x1, x 2 x_2 x2 x n x_n xn,对于每一个可能的取值 x i x_i xi ,其概率P(X= x i x_i xi) = p i p_i pi, (i=1,2,…,n) ,因此随机变量X的熵:
在这里插入图片描述

2.联合熵

将一维随机变量分布推广到多维随机变量分布,则其联合熵 (Joint entropy) 为:
在这里插入图片描述

1、熵只依赖于随机变量的分布,与随机变量取值无关,所以也可以将 X 的熵记作 H§。
2、令0log0=0(因为某个取值概率可能为0)。

3.条件熵

条件熵H(Y∣X) H(Y|X)H(Y∣X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y∣X) H(Y|X)H(Y∣X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望:
在这里插入图片描述
条件熵 H(Y∣X) H(Y|X)H(Y∣X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即
在这里插入图片描述

4.信息增益

信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:
在这里插入图片描述

5.基尼不纯度

从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率。简单理解就是 一个随机事件变成它的对立事件的概率。计算公式:(fi为某概率事件发生的概率)
在这里插入图片描述

一个随机事件Y ,P(Y=0) = 0.1 ,P(Y=1)=0.9
那么基尼不纯度就为P(Y=0)(1 - P(Y=0)) + P(Y=1)(1 - P(Y=1)) = 0.18
很明显 X比Y更混乱,因为两个都为0.5 很难判断哪个发生。而Y就确定得多ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值