熵,信息熵,最大熵,交叉熵,交叉熵,损失函数,随机熵,vc熵的区别和联系

1 熵的定义起源于物理学领域。热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量,简单的可以表述为,在一个孤立系统中,熵总是增大,朝无序的方向发展。

2 在信息论中,熵是信息熵,熵代表了信息量,系统状态越少,熵越少。系统越复杂,熵越大,定义如下,

    H(x) = E[I(xi)] = E[ log(2,1/P(xi)) ] = -∑P(xi)log(2,P(xi)) (i=1,2,..n)

    其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.

举例:

    香农熵,是以2为底,单位是bit表示 表达 32个不同信息,需要5bit位。

概率的表示方法。

以计算一本五十万字的中文书平均有多少信息量为例。常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息大约也只有 8-9 个比特。如果再考虑上下文相关性,每个汉字的信息熵只有5比特左右。

交叉熵。

        交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。可以用来作为损失函数。

        

交叉熵越小,P,Q分布越接近。

交叉熵损失函数。

说起交叉熵损失函数「Cross Entropy Loss」,脑海中立马浮现出它的公式:

            L=−[ylog y^+(1−y)log (1−y^)]

其中 y是真实值 y^是预测。

当 y=1 时候    L=-loglog y^   y^越接近 1越小

当y=0 时候     L=log (1−y^)    y^越接近 0越小

随机熵、vc熵、退火VC熵、生长函数、VC维是统计学习理论中的理论。

统计机器学习理论:随机熵、vc熵、退火VC熵、生长函数、VC维定义理解


 


 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值