决策树
决策树模型
- 决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。常用的算法有ID3、C4.5、CART算法。
- 决策树由结点和有向边组成;内部节点表示特征和属性,叶节点表示一个类。
特征选择准则
特征选择准则有信息增益(ID3)、信息增益比(C4.5)、基尼指数(CART)。
熵和条件熵
熵(entropy):熵是随机变量不确定性的度量。
设
X
X
是一个取有限值的离散型随机变量,随机变量的熵定义为:
H(X)=−∑ni=1pilogpi(1)
(1)
H
(
X
)
=
−
∑
i
=
1
n
p
i
l
o
g
p
i
条件熵:条件熵
H(Y|X)
H
(
Y
|
X
)
表示在已知随机变量
X
X
的条件下,随机变量的不确定性。
H(Y|X)=∑ni=1piH(Y|X=xi)(2)
(2)
H
(
Y
|
X
)
=
∑
i
=
1
n
p
i
H
(
Y
|
X
=
x
i
)
这里,
pi=P(X=xi),i=1,2,....,n
p
i
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
.
.
.
.
,
n
。
i
i
特征的取值的个数。
信息增益(information gain)
信息增益:由于特征A而使得对数据集D的分类的不确定性减少的程度。
样本集合D对特征A的信息增益
g(D,A)
g
(
D
,
A
)
为:
其中, H(D) H ( D ) 是数据集 D D 的熵,是 D D 中特征取第 i i 个值的样本集。为数据集 D D 对特征的条件熵, H(Di) H ( D i ) 为数据集 Di D i 的熵, K K 为样本类别的个数。为特征 A A 取第个值时,第 k k 个类别样本的数量。为 D D 中属于第类的样本子集, n n 是特征的取值个数。
信息增益比
样本集合
D
D
对特征的信息增益比为:样本集合
D
D
对特征的信息增益和集合
D
D
关于特征的值的熵
HA(D)
H
A
(
D
)
之比:
其中, HA(D)=−∑ni=1∣Di∣∣D∣log2∣Di∣∣D∣ H A ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ l o g 2 ∣ D i ∣ ∣ D ∣ , n n 是特征取值的个数。
基尼指数
在分类问题中,假设有
k
k
个类,则样本点属于第类的概率为
pk
p
k
,则概率分布的基尼指数为:
对于二分类问题,若样本点属于第1个类的概率是 p p ,则概率分布的基尼指数为
对于给定的集合样本 D D ,其基尼指数为
这里, Ck C k 是 D D 中属于第类的样本子集, K K 是类的个数。
若特征将样本集合 D D 划分成和 D2 D 2 两部分。则在特征 A A 的条件下,集合的基尼指数定义为:
决策树剪枝:
- 解决问题:解决决策树的过拟合问题。
- 定义:
决策树剪枝通过极小化决策树整体的损失函数或者代价函数来实现。
设一棵树 T T 的叶子结点的个数为,某个叶子结点为 t t ,该叶节点有 Nt N t 个样本点,其中k类的样本点有 Ntk N t k 个, k=1,2,...,K k = 1 , 2 , . . . , K 。决策树的损失函数定义为:
Ca(T)=C(T)+a|T| C a ( T ) = C ( T ) + a | T |
其中, T T 为任意子树,为对训练数据的预测误差, ∣T∣ ∣ T ∣ 为模型的复杂度。 α α 权衡训练数据的拟合程度与模型的复杂度。较大的 α α 促使选择较简单的决策树,较小的 α α 促使选择较复杂的决策树。 a=0 a = 0 只考虑模型与训练数据的拟合程度,不考虑模型的复杂度。
节点分裂度量方法通过(信息增益\信息增益比\Gini)对训练数据进行更好的拟合,决策树剪枝通过优化损失函数来减少模型的复杂度。
Ca(T)=∑t=1|T|NtHt(T)+a|T| C a ( T ) = ∑ t = 1 | T | N t H t ( T ) + a | T |=∑t=1∣T∣Nt(−∑kNtkNtlogNtkNt)+a|T| = ∑ t = 1 ∣ T ∣ N t ( − ∑ k N t k N t l o g N t k N t ) + a | T |=−∑t=1|T|∑k=1KNtklogNtkNt+a|T| = − ∑ t = 1 | T | ∑ k = 1 K N t k l o g N t k N t + a | T |