机器学习——决策树(阅读笔记)
概述
决策树(decision tree) 也叫判定树。是基于树(一种数据结构)结构进行决策。主要用于分类问题。
目的:通过决策得到一个泛化能力强的树。
基本方式:通过一定手段对训练数据(Training Set)进行学习生成一颗决策树,再用验证集(Validation Set)来验证这棵树的决策能力,中间可能会通过一定方法来修改树的结构来提高树的泛化能力,最终生成相对最优的决策树。
策略:利用数据的属性进行“分而治之”,通过属性的判定,“递归”生成决策树
算法实现:
1.划分——属性选择
如何在众多的属性中选择某一个或者一类属性作为划分结点呢?用什么样的评价标准来判定结点划分的好坏?
评判标准:我们希望通过属性划分后,不同分支的数据集尽可能属于同一类,即:结点的“纯度”y越高越好
如何来判定划分后的纯度的高低呢?现在介绍常用的三种方法来衡量。
1.1 信息增益
信息熵:度量样本集合纯度的指标之一
公式