机器学习(周志华著) Datawhale打卡第三天
第四章 决策树
算法基本
- 流程
决策树是一种常见的机器学习算法。以二分类任务为例,算法从根节点开始,经过若干内部节点判断,到达某个叶子节点判定结果。如图所示。
- 最优划分
如何划分属性的先后顺序是决策树面对的第一个问题。
因此,需要引入“信息熵”的概念。
假
定
当
前
样
本
集
合
D
中
第
k
类
样
本
所
占
的
比
例
为
p
k
(
k
=
1
,
2
,
.
.
.
,
∣
γ
∣
)
,
则
D
的
信
息
熵
定
义
为
E
n
t
(
D
)
=
−
∑
k
=
1
∣
γ
∣
p
k
l
o
g
2
p
k
假定当前样本集合D中第k类样本所占的比例为p_k(k=1,2,...,|\gamma|),则D的信息熵定义为\\ Ent(D)=-\sum_{k=1}^{|\gamma|}p_klog_2p_k
假定当前样本集合D中第k类样本所占的比例为pk(k=1,2,...,∣γ∣),则D的信息熵定义为Ent(D)=−k=1∑∣γ∣pklog2pk
E
n
t
(
D
)
Ent(D)
Ent(D)的值越小,数据纯度就越高,也这么理解,数据分类的混乱度就越小,确定性就更好。假如样本D中只有一种分类,那么
p
k
p_k
pk就是1,
E
n
t
(
D
)
Ent(D)
Ent(D)就是0。
光有信息熵还不够,必须给下一级分支节点赋予权重,样本数越多的分支节点影响越大,即信息增益。
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
v
=
1
V
D
V
D
E
n
t
(
D
v
)
Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{D^V}{D}Ent(D^v)
Gain(D,a)=Ent(D)−v=1∑VDDVEnt(Dv)
一般来说,信息增益越大,选择属性a进行划分时,提升的纯度就越大
- 未完待续。。。