机器学习 – 《机器学习》(周志华)第四章笔记
摘要
本章为决策树(decision tree)内容,决策树是一种较为常见的机器学习方法。决策树基于“树”型,是一种常见的自然判断,是一种“判定”的过程。
笔记
-
决策树 学习的目的是为了产生一个泛化能力强,也即是处理没有见过的示例的能力强的决策树
-
决策树基本流程遵循“分而治之”(divide-and-conquer) 策略
-
决策树过程:是一个递归过程,有三种情况会导致递归返回
a. 当前节点包含的样本属于同一类别,不需要进行划分
b. 当前属性集为空或者所以样本属性值相同
c. 当前节点包含的样本集合为空,无法划分 -
信息熵(information entropy)是度量样本集合纯度的一种指标,纯度越高,说明决策树的分支结点包含的样本越多属于同一类别。计算方法
-
增益率
信息增益会对取值数目较多的属性进行偏好选择,但此种选择并不利于进行决策,因此在更多时候选择使用“增益率” 来选择最优划分属性 -
基尼指数
CART 决策树使用“基尼指数” 进行属性划分。 -
剪枝处理
剪枝(pruning) 是用来处理过拟合的一种主要方法。因为决策树过程不断递归重复,就可能会出现枝条过多,从而出现过拟合的情况 -
剪枝测基本策略分为: “预剪枝” 和 “后剪枝”
-
预剪枝
在生成过程中,划分前先进行估计,如果当前节点的划分不能带来决策树泛化性能提升,那么就停止划分 -
后剪枝
当整个决策树已经生成,在叶子节点到根节点的方向对非叶子结点进行考察 -
连续值的处理
在进行判定中,可以将连续值进行离散化 -
缺失值处理
- 可利用已知的属性值进行预判概率,从而进行划分处理