#机器学习--补充数学基础--信息论

引言

        本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。


1、自信息(self-information)

        自信息是为了衡量某件事情发生所包含的信息多少。其定义如下: I ( x ) = − l o g P ( x ) I(x)=-logP(x) I(x)=logP(x)         表示若一件事发生的概率越低,那么其包含的信息量也就越大。如果是以 e e e 为底数,那么 I ( x ) I(x) I(x) 的单位是奈特(nats),如果是以 2 2 2 为底数,那么 I ( x ) I(x) I(x) 的单位是比特(bit)或香农


2、香农熵

        香农熵用来衡量整个概率分布中的不确定性总量,即遵循这个分布的事件所产生的期望信息总量。其定义如下: H ( x ) = E x ∼ P [ I ( x ) ] H(x)=E_{x\sim P}[I(x)] H(x)=ExP[I(x)]        若是连续型随机变量,香农熵被称为微分熵


3、KL散度

        若对于同一随机变量 x \text{x} x 有两个单独的概率分布 P ( x ) P(\text{x}) P(x) Q ( x ) Q(\text{x}) Q(x) ,可以使用KL散度来衡量这两个分布的差异。其定义如下: D K L ( P ∣ ∣ Q ) = E x ∼ P [ l o g P ( x ) Q ( x ) ] = E x ∼ P [ l o g P ( x ) − l o g Q ( x ) ] D_{KL}(P||Q)=E_{\text{x}\sim P}\left [log\frac{P(x)}{Q(x)}\right ]=E_{\text{x}\sim P}[logP(x)-logQ(x)] DKL(P∣∣Q)=ExP[logQ(x)P(x)]=ExP[logP(x)logQ(x)]

        特性:
        1)非负性。
        2)非对称: D K L ( P ∣ ∣ Q ) ≠ D K L ( Q ∣ ∣ P ) D_{KL}(P||Q)\neq D_{KL}(Q||P) DKL(P∣∣Q)=DKL(Q∣∣P)


4、交叉熵

        定义如下: H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E x ∼ P l o g Q ( x ) H(P,Q)=H(P)+D_{KL}(P||Q)=-E_{\text{x}\sim P}logQ(x) H(P,Q)=H(P)+DKL(P∣∣Q)=ExPlogQ(x)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值