信息与交叉熵

1. 信息

ref -【机器学习】直观理解信息量和信息熵的含义

  事件发生的概率越低,它含有的 信息量 就越大。(因为它排除的不确定性大)
  信息量公式:
I = − l o g 2 p I = -log_2^p I=log2p

信息熵 是描述一个系统内发生一个事件时,这个事件能给你带来信息量的期望。信息熵 的公式就是这个系统内所有事件发生时提供的信息量与它发生概率的乘积进行累加。
  信息熵公式:
H ( X ) = ∑ i = 1 n p ( x i ) I ( X ) H(X)=\sum_{i=1}^np(x_i)I(X) H(X)=i=1np(xi)I(X)

  通俗理解,一个系统如果是由大量小概率事件构成,那么它的信息熵就大,信息熵就是描述一个系统的复杂或者混乱程度。

2. 交叉熵

ref - 王木头学科学 - “交叉熵”如何做损失函数?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵"

在这里插入图片描述

:对这个系统求期望,信息量的期望
H ( P ) : = E ( P f ) = ∑ i = 1 m p i ⋅ f ( p i ) = ∑ i = 1 m p i ( − l o g 2 p i ) = − ∑ i = 1 m p i ⋅ l o g 2 p i \begin{aligned}H(P)&:= E(P_f)\\ &=\sum_{i=1}^mp_i · f(p_i)=\sum_{i=1}^mp_i(-log_2^{p_i})=-\sum_{i=1}^mp_i·log_2^{p_i}\end{aligned} H(P):=E(Pf)=i=1mpif(pi)=i=1mpi(log2pi)=i=1mpilog2pi

  把里面所有可能发生的事件,它的信息量求出来,然后和这个事件发生的概率相乘,最后将所有事件加起来,得到的就是信息的熵。

在这里插入图片描述

相对熵(KL散度)
  Q, P 分别代表两个概率系统, f Q ( q i ) f_Q(q_i) fQ(qi) 代表 Q 系统的信息量, f P ( p i ) f_P(p_i) fP(pi) 代表 P 系统的信息量,

D K L ( P ∣ ∣ Q ) : = ∑ i = 1 m p i ⋅ ( f Q ( q i ) − f P ( p i ) ) = ∑ i = 1 m p i ⋅ ( ( − l o g 2 q i ) − ( − l o g 2 p i ) ) = ∑ i = 1 m p i ⋅ ( − l o g 2 q i ) − ∑ i = 1 m p i ⋅ ( − l o g 2 p i ) \begin{aligned} &D_{KL}(P||Q)\\ :=&\sum_{i=1}^mp_i · \left(f_Q(q_i)-f_P(p_i)\right) \\ =&\sum_{i=1}^mp_i · \left((-log_2^{q_i})-(-log_2^{p_i})\right) \\ =&\sum_{i=1}^mp_i · \left(-log_2^{q_i}\right) - \sum_{i=1}^mp_i · \left(-log_2^{p_i}\right) \end{aligned} :===DKL(P∣∣Q)i=1mpi(fQ(qi)fP(pi))i=1mpi((log2qi)(log2pi))i=1mpi(log2qi)i=1mpi(log2pi)

  P在前,代表以P为基准,考虑P和Q相差多少。直观理解,如果Q 想要达成和 P 一样的分布,它们中间还差多少信息量。
∑ i = 1 m p i ⋅ ( − l o g 2 q i ) \sum_{i=1}^mp_i · \left(-log_2^{q_i}\right) i=1mpi(log2qi) 就是 P 的 交叉熵 H ( P , Q ) H(P,Q) H(P,Q), D K L D_{KL} DKL 是绝对大于等于 0 的,当 P与 Q 相等时, D K L = 0 D_{KL}=0 DKL=0。P 与 Q 越接近,交叉熵越小,两个概率模型越接近。

H ( P , Q ) = ∑ i = 1 m p i ⋅ ( − l o g 2 q i ) = ∑ i = 1 n x i ⋅ ( − l o g 2 q i ) = ∑ i = 1 n ( x i ⋅ l o g 2 y i + ( 1 − x i ) ⋅ ( l o g 2 ( 1 − y i ) ) ) \begin{aligned} &H(P,Q)\\ =&\sum_{i=1}^mp_i · \left(-log_2^{q_i}\right) \\ =&\sum_{i=1}^n x_i · \left(-log_2^{q_i}\right) \\ =&\sum_{i=1}^n \left(x_i · log_2^{y_i}+ (1-x_i ) · \left( log_2^{(1-y_i)}\right) \right) \end{aligned} ===H(P,Q)i=1mpi(log2qi)i=1nxi(log2qi)i=1n(xilog2yi+(1xi)(log2(1yi)))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值