信息熵
信息是用来消除事物不确定性的
抛掷一枚硬币,在知道结果前,有正反两种可能,即它所含的信息量为log2=1(注:未加说明,则本文章后续默认底数为2)
四张花色不同的扑克牌,在知道结果前,有四种可能,所含信息量为log4 = 2;
而之所以以2为底,是由于计算机的编码方式为二进制;
上述所说的两种情况,各个事件发生是等概率的,而现实生活中常常会遇到的是不等概率的。
因此就有了香农提出的信息熵公式:
信息熵越小,D的纯度越高。
信息增益是著名的决策树算法ID3的划分属性的方法;信息增益所追求的是通过这个属性划分后每个节点尽可能的干净(纯度高),因此信息增益对于会产生更多分支的属性是有偏好的;或者可以这样理解,如果我们按照类似于学号这种独一无二的属性对数据集去进行划分时,划分后每个节点的信息熵为0,即能达到信息增益最大,因此说信息增益对有更多分支的属性有偏好。
信息增益公式: