信息论


信息论

信息论的基本想法是一个不太可能的事情发生要比一个常可能发生的事件提供更多的信息

1 信息量

​ 度量信息多少的一个物理量,从量上反应具有确定概率的事件发生是所传递的信息
​ 用概率表示一个发生概率为p的事件发生传递的信息量为 − l o g 2 ( p ) -log_2(p) log2(p)概率在[0,1]之间,
​ 采用 − log ⁡ 2 p -\log_2 p log2p表示信息量发生概率越小传递的信息量越大,发生概率越大越接近1传递的信息量越小

2 信息熵

​ 评价整个随机变量X信息量的期望 H ( X ) = − ∑ x i ∈ X p ( x i ) log ⁡ 2 ( p ( x i ) ) H(X)=-\sum_{x_i \in X}p(x_i)\log_2(p(x_i)) H(X)=xiXp(xi)log2(p(xi))
​ 二元变量信息熵 H ( X ) = − p log ⁡ 2 ( p ) − ( 1 − p ) l o g 2 ( 1 − p ) H(X)=-p\log_2(p)-(1-p)log_2(1-p) H(X)=plog2(p)(1p)log2(1p)

3 条件熵

​ H(Y|X)代表在已知随机变量X的条件下,随机变量Y的不确定性
H ( Y ∣ X ) < = H ( Y ) H(Y|X)<=H(Y) H(YX)<=H(Y)

4 互信息

​ 信息增益,用于评价一个事件的出现对另一个事件的出现所贡献的信息量
I ( X , Y ) = H ( Y ) − H ( Y ∣ X ) I(X,Y)=H(Y)-H(Y|X) I(X,Y)=H(Y)H(YX)在决策树的特征选择中信息增益为主要依据

5 相对熵

p ( x ) p(x) p(x) q ( x ) q(x) q(x)是X取值的两个概率分布,p(x)表示X的真实分布 q(x)表示X的训练分布或者预测分布

K L ( p ( x ) ∥ q ( x ) ) = ∑ x ∈ X p ( x ) log ⁡ 2 ( p ( x ) q ( x ) ) \displaystyle KL(p(x)\Vert q(x))=\sum_{x\in X}p(x)\log_2(\frac{p(x)}{q(x)}) KL(p(x)q(x))=xXp(x)log2(q(x)p(x)) 衡量两个分布的差异,并且满足非负性

6 交叉熵

H ( p ( x ) , q ( x ) ) = ∑ x i ∈ X p ( x ) log ⁡ 2 ( q ( x ) ) H(p(x),q(x))=\sum_{x_i\in X}p(x)\log_2(q(x)) H(p(x),q(x))=xiXp(x)log2(q(x))可在神经网络中作为代价函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值