1 决策树模型
分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成。节点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。
2 特征选择
特征的选择在于选取对训练数据具有分类能力的特征,这样可以提高决策树学习的效率。
2.1 信息增益
在信息论与概率统计中,熵是表示随机变量不确定性的度量。熵越大随机不确定性也就越大。设 X X X是一个取有限个值的离散型随机变量,则随机变量 X X X的熵定义为:
H ( p ) = − ∑ i = 1 n p i l o g p i H(p)=-\sum^n_{i=1}p_ilogp_i H(p)=−i=1∑npilogpi
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示在已知随机变量 X X X的情况下,随机变量 Y Y Y的不确定性,定义如下:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) H(Y|X)=\sum^n_{i=1}p_iH(Y|X=x_i) H(Y∣X)=i=1∑npiH(Y∣X=xi)
特征A对训练数据 D D D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
显然,对于数据集 D D D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益。信息增益大的特征具有更强的分类能力。根据信息增益准则的特征选择方法是:对于训练集或者其子集,计算每个特征的信息增益,然后选择信息增益最大的特征,计算流程如下:
- j计算数据集D的熵:
H ( D ) = − ∑ k = 1 K ∣ C k ∣ D l o g ∣ C k ∣ D H(D)=-\sum^K_{k=1}\frac{|C_k|}{D}log\frac{|C_k|}{D} H(D)=−k=1∑KD∣Ck∣logD∣Ck∣ - 计算条件熵:
H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g ∣ D i k ∣ ∣ D i ∣ H(D|A)=\sum^n_{i=1}\frac{|D_i|}{|D|}H(D_i)=-\sum^n_{i=1}\frac{|D_i|}{|D|}\sum^K_{k=1}\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|} H(D∣A)=i=1∑n∣D∣∣Di∣H(Di)=−i=1∑n∣D∣∣Di∣k=1∑