Deep learning花书学习笔记(二):信息熵、KL散度、交叉熵

信息论基本想法:

  1. 可能性越大的事件信息量越少,极端情况下,确保一定发生的事件不具有任何信息量。
  2. 可能性越小的事件具有更高的信息量。
  3. 独立的事件应具有增量的信息。

满足上面三个性质:定义事件 X = x X=x X=x自信息:
I ( x ) = − log ⁡ P ( x ) I(x)=-\log P(x) I(x)=logP(x)
上述公式是对单个事件的不确定性进行量化。

信息熵:

对整个概率分布的不确定性进行量化。
H ( x ) = E x ∼ P [ I ( x ) ] = E x ∼ P ( log ⁡ ( P ( x ) ) H(x)=E_{x\sim P}[I(x)]=E_{x\sim P}(\log(P(x)) H(x)=ExP[I(x)]=ExP(log(P(x))
它反映了对依据某个分布 P P P产生的符号进行编码所需比特数的下界。分布 P P P越均匀信息熵越大。、

KL散度:

KL散度用来衡量两个分布的差异:
D K L ( P ∣ ∣ Q ) = E x ∼ P log ⁡ ( P ( x ) Q ( x ) ) = E x ∼ P ( log ⁡ P ( x ) − log ⁡ ( Q ( x ) ) ) D_{KL}(P||Q)=E_{x\sim P}\log(\frac{P(x)}{Q(x)})=E_{x\sim P}(\log P(x)-\log(Q(x))) DKL(PQ)=ExPlog(Q(x)P(x))=ExP(logP(x)log(Q(x)))
性质:
1:非负性。
2:非对称性: D K L ( P ∣ ∣ Q ) ≠ D K L ( Q ∣ ∣ P ) D_{KL}(P||Q)\neq D_{KL}(Q||P) DKL(PQ)=DKL(QP)

交叉熵:

H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) H(P,Q)=H(P)+D_{KL}(P||Q) H(P,Q)=H(P)+DKL(PQ)
与KL散度相比缺少了左边的一项,针对 Q Q Q最小化交叉熵等价于最小化KL散度。因为 Q Q Q并不参与左边的一项。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值