一件事情发生了,其信息量与该事件发生的概率相关
越不可能发生的事情发生了,其信息量就越大
信息量满足以下三点
- 非常可能发生的事情信息量较少
- 较不可能发生的事情信息量大
- 独立事件其信息量与执行的次数相关。例如抛硬币,抛两次,其信息量是抛一次的两倍
定义:信息量
I(x) = -logP(x)
P(x)区间位于0-1之间,信息量的单位是奈特(nats)一奈特是以1/e的概率观测到一个事件时获得的信息量
定义:信息熵
信息熵是所有信息量的期望,度量随机变量的不确定性,即
H(x) = - \sum^n_{i=1}P(x_i)*log(P(x_i))
定义:联合熵
对于多维随机变量,信息熵被称之为联合熵
H(X,Y)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(x_i,y_j))
定义:条件熵
条件熵表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。
H(Y|X)=-\sum_{i=1}^n\sum_{j=1}^mP(x_i,y_j)*log(P(y_j|x_i))
根据条件概率可得