1.信息量
信息量是指从 N N N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识 N N N个事件中特定的一个事件的过程中所需要提问是或否的最少次数。
在一个系统中,等可能事件的数量越多,事件的发生概率也就越低,传递究竟是哪个事件发生所需的比特信号也就越多。
举个例子,假如有两个相互隔离的房间A、B,二者只能通过01信号传递信息。当A房间投掷了一个硬币时,我们至少需要使用 log 2 2 = 1 \log _22=1 log22=1个比特信号告诉B房间是正面朝上还是反面朝上。类似地,当A房间投掷了一个有8个面的骰子时,我们至少需要 log 2 8 = 3 \log _28=3 log28=3个比特的信号来传递该信息。
假如系统中有的 N N N个等可能事件,那么我们将 log 2 N \log _2N log2N称为信息量。由于等可能事件的发生概率为 1 N \frac{1}{N} N1,则信息量的公式可以写作
− log 2 1 N -\log _2\frac{1}{N} −log2N1推而广之,假设事件 x x x的发生概率为 p ( x ) p\left( x \right) p(x),则传递该事件发生需要的最少比特信号位(即信息量)为 − log 2 p ( x ) -\log _2p\left( x \right) −log2p(x)
2.信息熵
信息熵用于衡量整个事件空间包含的平均信息量,即信息量的平均期望。将事件空间中所有事件发生的概率,乘以该事件的信息量,即可得到信息熵:
H ( x ) = ∑ x ∈ X p ( x ) ⋅ ( − log 2 p ( x ) ) = − ∑ x ∈ X p ( x ) ⋅ log 2 p ( x ) H\left( x \right) =\sum_{x\in X}{p\left( x \right)}\cdot \left( -\log _2p\left( x \right) \right) =-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) H(x)=x∈X∑p(x)⋅(−log2p(x))=−x∈X∑p(x)⋅log2p(x)
3.联合熵
对于服从联合分布为 p ( x , y ) p\left( x,y \right) p(x,y)的一对离散随机变量 ( X , Y ) \left( X,Y \right) (X,Y),其联合熵(joint entropy)定义为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log 2 p ( x , y ) H\left( X,Y \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}}\cdot \log _2p\left( x,y \right) H(X,Y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x,y)
4.条件熵
表示在 X X X给定条件下, Y Y Y的条件概率分布的熵对 X X X 的数学期望
若 ( X , Y ) ∼ p ( x , y ) \left( X,Y \right) \sim p\left( x,y \right) (X,Y)∼p(x,y),条件熵(Conditional entropy) H ( Y ∣ X ) H\left( \left. Y \right|X \right) H(Y∣X)定义为:
H ( Y ∣ X ) = ∑ x ∈ X p ( x ) ⋅ H ( Y ∣ X = x ) = − ∑ x ∈ X p ( x ) ∑ y ∈ Y p ( y ∣ x ) ⋅ log 2 p ( y ∣ x ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log 2 p ( y ∣ x ) \begin{aligned} H\left( \left. Y \right|X \right) &=\sum_{x\in X}{p\left( x \right)}\cdot H\left( \left. Y \right|X=x \right) =-\sum_{x\in X}{p\left( x \right)}\sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2p\left( \left. y \right|x \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) \end{aligned} H(Y∣X)=x∈X∑p(x)⋅H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)⋅log2p(y∣x)=−x∈X∑y∈Y∑p(x,y)⋅log2p(y∣x)
5.互信息
信息熵只能用于计算单个随机变量的信息量,为了量化随机变量之间的联系,需要引入互信息(Mutual Information)的概念。互信息表示两个随机变量间相关信息的多少,即:当观测一个随机变量时,另一个随机变量的不确定性减少了多少比特。给定两个随机变量 X X X和 Y Y Y,其联合概率密度 p ( x , y ) = P ( X = x , Y = y ) p\left( x,y \right) =P\left( X=x,Y=y \right) p(x,y)=P(X=x,Y=y)则 X X X和 Y Y Y之间的互信息 I ( X , Y ) I(X,Y) I(X,Y)的计算方式为:
H ( X ) − H ( X ∣ Y ) = − ∑ x ∈ X p ( x ) ⋅ log 2 p ( x ) − ∑ y ∈ Y p ( y ) ⋅ H ( X ∣ Y = y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log 2 p ( x ) + ∑ y ∈ Y p ( y ) ∑ x ∈ X p ( x ∣ y ) ⋅ log 2 p ( x ∣ y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log 2 p ( x ) + ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log 2 p ( x , y ) p ( y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) ⋅ log 2 p ( x , y ) p ( x ) p ( y ) \begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right)}·\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \end{aligned} H(X)−H(X∣Y)=−x∈X∑p(x)⋅log2p(x)−y∈Y∑p(y)⋅H(X∣Y=y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x)+y∈Y∑p(y)x∈X∑p(x∣y)⋅log2p(x∣y)=−x∈X∑y∈Y∑p(x,y)⋅log2p(x)+x∈X∑y∈Y∑p(x,

最低0.47元/天 解锁文章
2061

被折叠的 条评论
为什么被折叠?



