承接上个 学习笔记3 我们依旧在进行
数据预处理相关概念的学习
且 开启了第三章 关联数据挖掘 的学习
8.数据预处理相关知识点
8.1 信息增益
这块儿 知乎上大佬们说的是真心好
如果日后需要重点学习
点进来看就完事了
咋个理解信息增益
定义
熵:表示随机变量的不确定性
条件熵:表示在一个条件下 随机变量的不确定性
信息增益——熵-条件熵:表示在一个条件下 信息不确定性减少的程度。
举个例子
X(明天下雨)是一个随机变量,Y(明天阴天)也是随机变量。
X的熵可以算出来,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。
信息增益=X的熵 - Y条件下的X的熵。
具体解释:原本明天下雨的信息熵(X也就是 下雨的熵)是2,条件熵是0.01(因为如果知道明天是阴天,那么下雨的概率很大,信息量少),