决策树
1. 概述
- 构造树结构并按熵最小实现分类
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特
征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型
2. 实现
-
计算每次分类后的香农熵,根据香农熵最小选择最好的数据集划分方式
- 信息定义:
l
(
x
i
)
=
−
log
2
p
(
x
i
)
l\left(x_{i}\right)=-\log _{2} p\left(x_{i}\right)
l(xi)=−log2p(xi)
p ( x i ) p\left(x_{i}\right) p(xi)为选择该分类的概率 - 熵:
H
=
−
∑
i
=
1
n
p
(
x
i
)
log
2
p
(
x
i
)
H=-\sum_{i=1}^{n} p\left(x_{i}\right) \log _{2} p\left(x_{i}\right)
H=−∑i=1np(xi)log2p(xi)
n为分类的数目
- 信息定义:
l
(
x
i
)
=
−
log
2
p
(
x
i
)
l\left(x_{i}\right)=-\log _{2} p\left(x_{i}\right)
l(xi)=−log2p(xi)
-
递归构建决策树
-
绘制决策树与测试
3. 总结
- 决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,我们首先需要测量集合中数据的不一致性,也就是熵,然后寻找最优方案划分数据集,直到数据集中的所有数据属于同一分类。
- 数据形式非常容易理解
- 用于分类