一、决策树
1.1 基本思想
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。
用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归的对实例进行测试并分配,直至达到叶结点,最后将实例分到叶结点的类中。
决策树学习通过包括3个步骤:特征选择、决策树的生成和决策树的修剪。
1.2 特征选择
特征选择,即选取某个特征,然后根据这个特征对实例点进行分类。那么该如何选择特征呢?
1.2.1 熵
熵表示随机变量不确定性的度量。设 X X X是一个取有限个值的离散随机变量,其概率分布为: P ( X = x i ) = p i , i = 1 , 2 , ⋯ , n (1) P(X=x_i)=p_i, i=1,2,\cdots,n\tag1 P(X=xi)=pi,i=1,2,⋯,n(1)
则随机变量 X X X的熵为: H ( X ) = − ∑ i = 1 n p i log p i (2) H(X)=-\sum\limits_{i=1}^np_i\log p_i\tag2 H(X)=−i=1∑npilogpi(2)
若 p i = 0 p_i=0 pi=0,定义 p i log p i = 0 p_i\log p_i=0 pilogpi=0。根据定义,随机变量 X X X的熵与 X X X的取值无关,只取决于 X X X的分布,因此有时也记作 H ( p ) = − ∑ i = 1 n p i log p i (3) H(p)=-\sum\limits_{i=1}^np_i\log p_i\tag3 H(p)=−i=1∑npilogpi(3)
熵越大,随机变量的不确定性越大。
1.2.2 条件熵
设有随机变量 ( X , Y ) (X, Y) (X,Y),其联合概率分布为 P ( X = x i , Y = y j ) = p i j , i = 1 , 2 , ⋯ , n (4) P(X=x_i, Y=y_j)=p_{ij}, i=1, 2, \cdots, n\tag4 P(X=xi,Y=yj)=pij,i=1,2,⋯,n(4)
条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)表示在已知随机变量 X X X的条件下随机变量 Y Y Y的不确定性。随机变量 X X X给定的条件下随机变量 Y Y Y的条件熵定义为 H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) (5) H(Y|X)=\sum\limits_{i=1}^np_iH(Y|X=x_i)\tag5 H(Y∣X)=i=1∑npiH(Y∣X=xi)(5)
这里 p i = P ( X = x i ) , i = 1 , 2 , ⋯ , n p_i=P(X=x_i), i=1, 2, \cdots, n pi=P(X=xi),i=1,2,⋯,n
1.2.3 信息增益
信息增益表示得知特征 X X X的信息而使得类 Y Y Y的信息的不确定性减少的程度。
特征 A A A