information theory——熵

最新推荐文章于 2019-12-21 20:53:00 发布

qq_35286745

最新推荐文章于 2019-12-21 20:53:00 发布

阅读量261

点赞数

分类专栏：机器学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35286745/article/details/77888811

版权

机器学习基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

熵用来度量一个事件、一个变量取值所含有的信息的量的大小。

出发点：一个低概率事件发生——背后信息大；反之亦然。比如，找人算1+1，等于2是很显然的，但是某人算出个3出来，那背后就有很大空间可以让我们想象了。

实施：既然信息量和概率（以及发生）有关，那就从事件发生的概率角度度量信息量；p(X)

设信息量用h(·）来表示

低概率事件信息量＞高概率事件：所以h(·)与p(X)是个负相关关系

若两事件独立，则p(X,Y)=p(X)*p(Y)，h(X,Y)应该等于h(X)+h(Y)。所以：h(p(X,Y)) 能变成h(p(X))+h(p(Y))。 What？！让变量之间乘法变加法？是什么函数？必然是log啊

轮廓： h(p(X)) 大约是log(p(X)) 的样子。

但是！要是负相关关系啊！要是单调减的啊！前面再来个负号吧！~

结果：h(x) = −log 2 p(X)

但是，如果是一个变量，这个变量取值多少呢（熵）？

质疑：具体到具体数据集的信息量？不知道概率还罢了。如果知道了概率（如通过训练样本得到），是否应该在测试集上，以训练集的概率，以及测试集事件发生概率结合，进行新的度量？比如Ptest(x)/Ptrain(x)进行估计？某种程度上可以反应我估计的特征之类的质量好坏？

或者训练集、测试集差别大小？

reference: PRML

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
information theory——熵

熵用来度量一个事件、一个变量取值所含有的信息的量的大小。出发点：一个低概率事件发生——背后信息大；反之亦然。比如，找人算1+1，等于2是很显然的，但是某人算出个3出来，那背后就有很大空间可以让我们想象了。实施：既然信息量和概率（以及发生）有关，那就从事件发生的概率角度度量信息量；p(x) 设信息量用h(·）来表示低概率事件信息量＞高概率事件
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。