熵、交叉熵、KL散度、JS散度、推土机理论

熵、交叉熵、KL散度、JS散度、推土机理论


本文参照知乎文章: 原文链接

信息量

假设一件事情A,它发生的概率为p(A),则其具有的信息量为-log(p(A)),一件事情发生的概率越小,其具有的信息量越大。

熵就是信息量的期望,如公式1.
H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ ( p ( x i ) ) (1) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)\tag{1} H(X)=i=1np(xi)log(p(xi))(1)
当只有两种可能时即二项分布时,可写为公式2的形式。
H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ ( p ( x i ) ) = − p ( x ) log ⁡ ( p ( x ) ) − ( 1 − p ( x ) ) log ⁡ ( 1 − p ( x ) ) (2) H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)=-p(x) \log (p(x))-(1-p(x)) \log (1-p(x))\tag{2} H(X)=i=1np(xi)log(p(xi))=p(x)log(p(x))(1p(x))log(1p(x))(2)

KL散度与交叉熵

KL散度公式如公式3,注意其不是距离,不满足距离的性质。
不对称也不满足三角不等式。
D K L ( p ∥ q ) = ∑ i = 1 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) (3) D_{K L}(p \| q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)\tag{3} DKL(pq)=i=1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值