深度学习 自信息、熵、交叉熵

自信息:一个随机事件所包含的信息量

一个随机事件发生的概率越高,其自信息越低.必然事件自信息为0

对于一个随机变量 𝑋(取值集合为 𝒳,概率分布为 𝑝(𝑥), 𝑥 ∈ 𝒳)

当 𝑋 = 𝑥 时的自信息𝐼(𝑥)定义为: 𝐼(𝑥) = − log 𝑝(𝑥)

熵(entropy):无损编码事件信息的最小平均编码长度

熵为自信息的数学期望

也可用来衡量随机事件的不确定性,如下例兔的熵大于猫的(编码长度:3 > 1)

对每个可能性事件进行编码,计算他们的编码长度,最短的为熵

类似哈夫曼树,编码不能有二义性:

        例:四种事件的编码分别为 10、11、 1、110,前两种编码和后两种编码都可组成1110的编码段

编码方式猫(50%)狗(25%)猪(12.5%)兔(12.5%)编码长度
方法11011001112x50%+3x25%+1x12.5%+3x12.5%=2.25
方法20110101111x50%+3x25%+2x12.5%+2x12.5%=1.875
方法30101101111x50%+2x25%+3x12.5%+3x12.5%=1.75

熵的计算公式:Entrtopy=-\sum _{i}P(i)log_{2}P(i)

        此例的熵为

50% * (-log_{2}50%)+25%* (-log_{2}50%) + 12.5% * (-log_{2}12.5%) + 12.5 * (-log_{2}12.5%)

=1.75,与方法3相同

交叉熵

我们用实际的概率分布y和预测的概率分布y_hat进行交叉熵运算

CrossEntropy=-\sum _{i}y_{P(i)} log\hat{y}_{P(i)}

例题:动物数据集中有四种动物,每张照片的label都为one-hot编码

独热编码(one-hot encoding):一个向量,分量和输出类别一样多,类别对应的分量为1其他为0
动物
label[1,0,0,0][0,1,0,0][0,0,1,0][0,0,0,1]

熵:-(1log_{2}1 + 0log_{2}0+0log_{2}0+0log_{2}0) = 0

若两不同模型对猫的照片进行预测

模型

预测

1[0.5,0.2,0.1,0.3]
2[0.8,0.1,0.05,0.05]

模型1的交叉熵:-(1log_{2}0.5 + 0log_{2}0.2+0log_{2}0.1+0log_{2}0.3) = 1

模型2的交叉熵:-(1log_{2}0.8 + 0log_{2}0.1+0log_{2}0.05+0log_{2}0.05) \approx 0.3219

交叉熵越小离熵越近,越准确

KL散度:用概率分布q近似p时造成的信息损失量

KL(p,q) = H(p,q) - H(p) = \sum_{x}p(x)log\frac{p(x)}{q(x)}

设真实分布为p_{r}(y|x),预测分布为p_{\Theta }(y|x)

KL散度为:\sum_{y}p_{r}(y|x)log\frac{p_{r}(y|x)}{p_{\Theta }(y|x)}

由于此处优化的是预测分布,与pr无关,所以可把log上的pr去掉

-\sum_{y}p_{r}(y|x)log{p_{\Theta }(y|x)}即为交叉熵

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值