决策树:
1. 利用一定的 **训练样本** ,从数据中学习出决策规则,自动构造出决策树。
2. 决策树由一系列结点组成,每个结点代表一个特征和相应的决策规则。
3. 决策树的构建过程,就是选取特征和确定决策规则的过程。
1. ID3方法(交互式二分法):
- ID3算法的基础:香农信息论中定义的熵.
H(X)=−∑x∈XP(x)log(P(x))
H
(
X
)
=
−
∑
x
∈
X
P
(
x
)
l
o
g
(
P
(
x
)
)
- 除了采用香农熵作为不纯度的度量,也可以采用其他度量。比如不纯度度量,也称方差不纯度
I(N)=∑m≠nP(wm)P(wn)=1−∑j=1kP2(wj)
I
(
N
)
=
∑
m
≠
n
P
(
w
m
)
P
(
w
n
)
=
1
−
∑
j
=
1
k
P
2
(
w
j
)
- 还有误差不纯度
I(N)=1−maxjP(wj)
I
(
N
)
=
1
−
max
j
P
(
w
j
)
2. C4.5算法:
- 使用信息增益率代替信息增益
ΔIR(N)=ΔI(N)I(N)
Δ
I
R
(
N
)
=
Δ
I
(
N
)
I
(
N
)
过学习与决策树剪枝:
- 如果决策树生长的很大,导致过学习。
- 控制决策树规模的做法叫剪枝,决策树剪枝有两种策略,一种叫先剪枝,一种叫后剪枝。
2.1 先剪枝:在决策树生长过程中决定某结点是否需要继续分支还是直接作为叶结点.
2.2 后剪枝:在决策树充分生长以后再对其进行修剪.从叶结点出发,如果消除具有相同父节点的叶结点后不会导致不纯度的明确增加,则执行消除.