香农熵

香农熵,又称信息熵,熵,可以用来代表某数据集合的不一致性。熵的值越高,则代表数据集的不一致性越高。
熵与概率的关系

    举例:当一个桶中有四个球,从左到右分别为红色、红色、红色、绿色。现有放回地从桶中抓球,每次抓取一个,求抓出球的顺序仍然为红、红、红、蓝的概率。

可知,第一次抓出红球的概率:0.75

           第二次抓出红球的概率:0.75

           第三次抓出红球的概率:0.75

           第四次抓出绿球的概率:0.25

           按顺序抓出四个球的概率:0.75*0.75*0.75*0.25 = 0.105

若桶中的四个球都是红色,那么我们按顺序抓出四个球的概率是1。

这个时候我们发现当桶里的球更加多样(不一致)的时候,概率更高,熵代表的值和概率对于不一致性的关系是相反的。

我们知道熵的计算公式:

H = -Σ_{i=1}^{n}p(x_{i})log_2p(x_{i})

从概率到熵:

我们知道 log(ab) = log(a)+lob(b)

-log_2(0.75)-log_2(0.75)-log_2(0.75)-log_2(0.25) =-log_2( 0.105)=3.245

取均值有0.25*3.245 = 0.811

还可写成:-\frac{3}{4}*log_2{0.75}-\frac{1}{4}log_20.25 = 0.811

同时,若桶中均为红球,那么有:-log_2(1)-log_2(1)-log_2(1)-log_2(1) =0

更通用的公式显而易见:

当桶中有m个红球、n个绿球时,有:

Entropy = \frac{-m}{m+n}*log_2(\frac{m}{m+n})+\frac{-n}{m+n}*log_2(\frac{n}{m+n})

至此得到熵的公式。

在决策树中,通过计算划分出的不同数据集的熵,分别与划分之前数据集的熵比较得出信息增益,得出信息增益最高的数据集的情况,此时的特征则为决策树此时创建分支的最好特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值