目录
决策树概述
决策树(decision tree)是功能强大的且非常好用的的分类和预测方法,它是一种有监督的学习算法。以树状图为基础,故称为决策树。这里以分类为主题。对于离散值,决策树中的每一个非叶节点都是数据的一个特征,叶节点是数据的分类,决策树从根节点沿着不同的特征分支最终到达叶节点。
决策树的构建
决策树的构建主要分为3大步骤
-
特征选择
-
生成决策树
-
剪枝
特征选择
特征选择就是选取有较强分类能力的特征,其评判标准主要有信息增益、信息增益率和基尼系数来判定。
熵
熵是度量数据纯度最常用的一种指标。假设,样本集合D中的第k类样本的概率是,则D的信息熵为
值越小则数据纯度越高
条件熵
E(D∣A)
表示在给定特征A的条件下,D的条件熵
其中
信息增益
信息增益表示:已知集合D的经验熵E(D),给定特征A下D的经验条件熵为E(D∣A)的差