信息论中的熵

(1)编码长度的推算

       按照0,1编码方式,信息量假设为N,那么所需要的位数为logN,底数为2,。那么如果在一个样本中的概率分布x~P,那么编码长度可以通过[1]式确定。事实上当一个概率很小的事情发生的时候,这个事件代表着更大的信息量,所以寻求一个函数图像能够在接近0的时候信息量趋向正无穷,而且当函数自变量取值为1(即某个事件一定发生)时,信息量为0,对数函数就刚好满足了需求。打个简单的比分,和别人说太阳从东边升起来了和太阳从西边升起来了的信息量永远是后者更多,前面一句话可以视作废话,也就是信息量可以当成0。

                                                                    [1].Len(P)=\sum\limits_{x} -P_{x}*log(P_{x}) 

(2)算法应用

       信息熵的运用十分广,最常见的就是决策树的决策问题上,在选择某个决策因素时,往往比较这个决策因素和其他决策因素的信息熵增益量,选择熵增更大的因素往往会取得更好的分类效果。

(3)交叉熵

       交叉熵是一个应用更加广泛的熵,作为神经网络中重要的,具有代表性的损失函数的一种,它的特性有着很多的好处。

如下所示是交叉熵的计算方法:

                                                                    [2].H(p,q)=-\sum \limits_{x}(p_xlog(q_x))

通常上述交叉熵用来评估真实与预测之间的一种距离关系,距离越小代表越接近真是结果,在TensorFlow中,优化器optimizer通常使用minimize交叉熵得到神经网络模型。

这是一种人为界定信息量的数学方法,却又仿佛和大自然完美锲合。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息论是用来衡量随机变量的不确定性的度量。可以理解为一个系统或信源包含的信息量的平均值。当系统或信源的事件或符号有更多的可能性时,其就越高,表明其信息量越大,我们对其未来的预测就越困难。 例如,一个硬币抛掷的结果只有两种可能性,正面或反面,因此其为1比特,即一个二进制数字所代表的信息量。而一个骰子抛掷的结果有六种可能性,其为2.58比特,表示我们需要更多的信息来描述其结果。一个文字的语言模型可能会更高,因为其的字母或单词有更多的可能性。 的计算公式为H(X)= -Σp(x)log2p(x) ,其p(x)表示随机变量X取值为x的概率。这个公式告诉我们,当一个事件或符号出现的概率越大时,其就越小。例如,一个硬币正反面出现的概率各为50%,因此其为1比特;而如果正面出现的概率为90%,反面出现的概率只有10%,那么其就会降低到0.47比特。 信息编码和压缩也有着重要的应用。在信息编码,我们希望用最少的比特数来表示一个符号或事件,因此我们需要知道其的大小,从而选择最优的编码方式;在信息压缩,我们可以利用的特性来压缩数据,使得数据量更小,从而减少存储和传输的成本。 总之,信息论非常重要的概念,它可以帮助我们理解随机变量的不确定性以及信息的量化和压缩。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值