本文将记录在《统计学习方法》中有关决策树的内容
分类树(ID3&C4.5&CART分类树)
信息增益
熵表示随机变量的不确定性的程度。X是有有限制的离散随机变量集 X = { x 1 , x 2 , . . . , x N } X=\{ x_1,x_2,...,x_N\} X={
x1,x2,...,xN},则该数据集的熵为: H ( X ) = − ∑ i = 1 N p i ∗ l o g ( p i ) H(X) = - \sum_{i=1}^Np_i*log(p_i) \\ H(X)=−i=1∑Npi∗log(pi)
其中 p i p_i pi为第i个数据出现的频率。
熵只依赖X的分布,与X的取值无关,熵越大随机变量的不确定性就越大。
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示在已知特征A的情况下随机变量Y的不确定程度,定义为 H ( Y ∣ X ) = ∑ i = 1 N p i H ( Y ∣ X = x i ) p i = P ( X = x i ) 当 p i = 0 时 , 令 0 l o g 0 = 0 H(Y|X) = \sum_{i=1}^N p_iH(Y|X=x_i)\\ p_i = P(X=x_i)\\当p_i = 0时,令0log0 = 0 H(Y∣X)=i=1∑NpiH(Y∣X=xi)pi=P(X=xi)当pi=0时,令0log0=0
在给定数据集D的情况下特征A对于数据集的信息增益g(D,A),定义为集合X的熵减去特征A下的X的条件熵,定义为 g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)= H(D) - H(D|A) g(D,A)=H(D)−H(D∣A)
熵 H ( D ) H(D) H(D)与条件熵 H ( D ∣ A ) H(D|A) H(D∣A)之间的差值称为互信息,决策树中的信息增益等价于训练数据集中类与特征的互信息
信息增益表达特征A对数据集分类的不确定性减少的程度,信息增益大的特征具有更强的分类能信息增益力。
对于数据集D中有 C = { C 1 , C 2 , C k } C = \{C_1,C_2,C_k\} C={
C1,C2,Ck}个类别, ∣ C k ∣ |C_k| ∣Ck∣表示第k个类别中样本个数,显然 ∑ i k ∣ C i ∣ = ∣ D ∣ \sum_i^k|C_i| = |D| ∑ik∣Ci∣=∣D∣,特征A的取值 {