信息熵与信息增益的概念

最新推荐文章于 2024-07-20 21:00:29 发布

michaelnju

最新推荐文章于 2024-07-20 21:00:29 发布

阅读量3.7k

点赞数 1

分类专栏： hadoop 文章标签：数据挖掘信息论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/michael_kong_nju/article/details/12046975

版权

hadoop 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

关于熵的概念：

熵是一个信息论中很抽象的概念，从熵定义的角度来看，熵表示一组信息中，所有随机变量出现的期望，他的计算公是：

Entropy(S)：H(x)=∑p(xi)*log1/(p(xi)) (i=1,2,..n)=-∑p(xi)*log(p(xi)) (i=1,2,..n)其中log的底数是2.

公式的理解是：p(i)表示第i个变量出现的概率，则1/p(i)表示若p(i)发生的样本容量，如果用二进制来表示样本容量，则n=log2 1/p(i),所以将所有的随机的变量和用二进制表示的样本容量的二进制数的容量相加就得到熵。

从中可以看到，熵表示了一个分类中数据的杂乱程度，熵越小的话，分类就越有规律，所以我们自然会联想到，若要在数据挖掘中使得分类的效果最好，就要设法减小这个信息熵。从而我们又引入了信息增益的概念。因为对于一个集合，可能有多种分类的方法，那么哪种分类是最优呢？如果原来的分组的信息熵记为H(x),

那么划分后的分组的信息熵我们用计算公式：I(X; split) =p(good)*H(g)+p(wrong)*H(w),

这里的p(good)是符号化表示。我假如将一箱苹果数目为x，其中有好有坏，按一种标准比如外观将好的分为一堆(good)有g个，则p(good)=g/x。H（g）的计算方法同信息熵的计算方法。

的信息增益的公式为：Gain(X;split)=H(x)-I(X;split);当然得到的Gain()的值越大表示分配的越好。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

michaelnju CSDN认证博客专家 CSDN认证企业博客

码龄11年

75: 原创

7万+: 周排名

189万+: 总排名

41万+: 访问

: 等级

4755: 积分

107: 粉丝

121: 获赞

50: 评论

304: 收藏

私信

关注

热门文章

分类专栏

最新评论

拜占庭将军问题。口头算法OM(n.m);n=3m+1
janeholiday11: 哥们儿你搞清楚了吗？我看了好多没看到这个问题的答案。。我觉得往事散云烟的解答也不太对，如果Majority不存在则默认为撤退命令，那么就不会要求n>3m才有解了。。
从C10K问题来看常见的中小型服务器I/O模型
Tisfy: 写得太好了！正如那：半亩方塘一鉴开，天光云影共徘徊。
eclipse的jigloo插件可视化开发java swing/SWT.安装及使用演示。
liuyachao110: 感谢，好用的。
拜占庭将军问题。口头算法OM(n.m);n=3m+1
往事散云烟: 我找到的答案是：“若副官6传递的是(R,A,R,A,R)，那么他们所有人得到的消息向量都是(A,R,A,R,A,R)，此时A和R数量一样多，这并不代表majority不起作用了，他将采用默认值R（回顾前文：majority(v1,…,vn-1)代表了大多数人的命令，若不存在则默认为撤退命令），所有人的行动都会采用R，这同样是满足的。” 但是不太确定是否正确，感觉上来说是正确的。
拜占庭将军问题。口头算法OM(n.m);n=3m+1
GUDY000: 请问，如果6发的是RARAR，结果会变成3A3R，如何弄呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。