学习决策树必须要了解的信息论知识

系统越有序,熵值越低;系统越混乱或者分散,熵值越高

信息熵

从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小;数据越分散的地方熵值越大

从信息的有序性上进行的描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。

信息熵是度量样本集合纯度最常用的一种指标。

 信息增益

以某特征划分数据集前后的熵的差值。熵越大,样本的不确定性越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分的好坏

信息增益 = entroy(前) - entroy(后)

 所以可以得到信息增益的计算公式

 

信息增益率

信息增益率是由信息增益和属性a对应的固有值做除法求的

信息增益上面已经说了怎么求了

固有值用下面的公式求

 基尼值和基尼指数

基尼值:从数据集D中随机抽取两个样本,其类别标记不一致的概率    

基尼值越小,数据集D的纯度越高

计算基尼值时只有两种类别(对于有三种类别的,分为aa和其他、bb和其他、cc和其他)

 基尼指数:一般选择使划分后基尼指数最小的属性作为最优化分属性

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值