机器学习算法---决策树中用于特征选择的信息增益

本文深入探讨了决策树算法中用于特征选择的三个关键概念:熵、条件熵和信息增益。熵表示不确定性,条件熵描述了在已知条件下的不确定性,而信息增益则是熵减去条件熵,用于衡量特征对决策帮助的程度。信息增益在构建决策树时起着至关重要的作用。
摘要由CSDN通过智能技术生成

首先总体上理解三个概念:

熵:表示随机变量的不确定性。

条件熵:在一个条件下,随机变量的不确定性。

信息增益:熵 - 条件熵

然后我们分别来理解这三个概念:

一、熵

信息量
信息量是对信息的度量,就跟时间的度量是秒一样。

多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生的地震了;越大概率的事情发生了产生的信息量越小,如太阳从东边升起来了(肯定发生,没什么信息量)。

如果我们有俩个不相关的事件x和y,那么我们观察到的俩个事件同时发生时获得的信息应该等于观察到的事件各自发生时获得的信息之和,即:

                                h(x,y) = h(x) + h(y)

由于x,y是俩个不相关的事件,那么满足p(x,y) = p(x)*p(y).

因此我们有信息量公式如下:
在这里插入图片描述
最后引出信息熵的概念:
信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值