点击上方“机器学习与统计学”,选择“置顶”公众号
重磅干货,第一时间送达
信息熵、联合熵、条件熵、互信息的关系
1、信息量
信息量是通过概率来定义的:如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。简而言之,概率小的事件信息量大,因此信息量可以定义如下:
下面解释为什么要取倒数再去对数。
(1)先取倒数: 这件事表示:“信息量”和“概率”呈反比;
(2)在取对数: 取对数是为了将区间 映射到 。
再总结一下:
2、信息熵
信息熵是信息量的数学期望。理解了信息量,信息熵的定义式便不难理解。定义如下:
熵越小表示越“纯”,决策树算法在进行特征选择时的其中标准之一就是选择使得通过该特征分类以后的类的熵最小;
上面是熵越小越好,而有的时候,我们需要熵越大越好,简单来说就是“鸡蛋不要放在一个篮子里”(见吴军《数学之美》),最大熵原理就是这样,这部分内容可以参考李航《统计机器学习》逻辑回归模型相关部分。
3、条件熵
条件熵的定义为:在 给定的条件下,