决策树,条件熵,相对熵,互信息

决策树:决策树最大的好处就是训练速度快
从n个特征中选择一个来分成若干份。如果是离散的,就分成若干份,如果是连续的,就取某一个值作为阈值分类,那么现在的问题转化成为我们要选取哪一个特征来分类。因为有不同的标准,所以有了ID3,C4.5,CART这三种决策树。

在这里插入图片描述

假如现在有一个数据集,分别是红色的圆点和绿色的圆点,红色有70个,绿色有65个,把他们放到一起,随机抓取一个,它的颜色是红色还是绿色?我们可以算它的概率。红色概率有70/135,绿色概率为65/135。那我们可以预测是红色的,即使概率很接近百分之50。
但是在这个数据中,我们中间切一刀,假设左边的点红色10个,绿色60个,那么红色概率为1/7,绿色概率为6/7。如图2,下面两张图代表着切4刀和切5刀的情况。

信息熵:
一件事情发生的概率,和这个事件蕴含的信息量是有关系的。概率越低,它蕴涵的信息量越高。
概率是一个0-1之间的数。信息量是一个随着概率增加,不断减小的一个降函数,0的时候是一个很大的数,当概率为1的时候,我们可以认为信息量就是0,也就是说当概率是1的时候,就是没有任何信息量,他一定会发生,但是当概率等于0的时候,就是及其不可能发生的事情发生了。
我们知道如果事件x和y如果独立,那么有P(x,y)=P(x)*P(y),现在我们希望如果x和y独立,那么让

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值