决策树概述
决策树(decision tree)算法是一种基本的分类与回归的方法
决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程
可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率
决策树学习通常包括三个步骤:1.特征选择 2.决策树生成 3.决策树的修剪
决策树定义
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成
结点有两种类型:内部结点(internal node)和叶结点(leaf node)
内部结点表示一个特征或属性(features),叶结点表示一个类(labels)
决策树原理
信息熵&信息增益
熵(entropy):熵指的是体系的混乱的程度
信息论(information theory)中的熵:是一种信息的度量方式,表示信息的混乱程度
信息越有序,信息熵越低
信息增益(information gain):在划分数据集前后信息发生的变化称为信息增益
决策树算法特点
优点:计算复杂度不高,输出结果易于理解,数据有缺失也能跑,可以处理不相关特征
缺点:容易过拟合
适用数据类型:数值型和标称型