理论学习
1. 决策树
1.1 概念
- 每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。
- 优点:决策过程直观,易理解,可解释性强。
1.2 构造
- 属性是离散值且不要求生成二叉决策树,此时用属性的每一个划分作为一个分支。
- 属性是离散值且要求生成二叉决策树,此时使用属性划分的一个子集进行测试,按照“属于此子集”和“不属于此子集”分成两个分支。
- 属性是连续值,此时确定一个值作为分裂点
split_point
,按照>split_point
和<=split_point
生成两个分支。
1.3 不纯度衡量
- 信息熵用来描述信源的不确定度。 H = − ∑ i = 1 n p i log p i H=-\sum^{n}_{i=1}p_i\log{p_i} H=−∑i=1npilogpi
- 基尼系数: I G