- 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
a. 熵
信息熵
假设集合D中有y类样本,第k类的样本出现频率为Pk,则样本D的熵为
其中,当样本 DD 中 |y|∣y∣ 类样本均匀分布时,这时信息熵最大,纯度最小,熵为
当样本D中只有一类样本,此时信息熵最小,纯度最大,熵为
** 联合熵**
因此如果在x的基础上加入了一个y,那么联合熵H(x,y) ,一定大于等于H(x),H(y),当且仅当加入的是常量的情况下,等号才成立。例如掷硬币,熵是1枚硬币,联合熵是2枚,肯定是联合更不确定了,熵更大。
信息熵
在某个条件确定的基础上,另一件事发生的概率H(y|x),确定性更大,熵更小。
b. 信息增益
假定在样本D中有某个离散特征 a有 V 个可能的取值 ,若使用特征 a 来对样本集 D 进行划分,则会产生 V个分支结点,其中第 v 个分支结点样本记为Dv,特征 a 对样本集 D 进行划分所获得的“信息增益”为
信息增益越大,表示使用特征a来对样本集进行划分所获得的纯度提升越大。
c.基尼系数
假定当前样本集合 D 中第 k 类样本所占的比例为 Pk,则 D 的基尼系数为
2. 决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3中,每次根据“最大信息增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分。
C4.5针对ID3采用的信息增益度量存在一个缺点,它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信息增益(信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大)。但是较多取值的属性来进行划分带来的问题是它的泛化能力比较弱,不能够对新样本进行有效的预测。为了避免这个不足,C4.5中是用信息增益比率(gain ratio)来作为选择分支的准则。信息增益比率通过引入一个被称作分裂信息(