一、决策树概念
在经典算法中,决策树是常用的算法之一。前面提到的线性回归可以解决回归问题,逻辑回归可以解决分类问题,而今天要学习的决策树不但可以回归问题,还可以解决分类问题。顾名思义,决策树分为两种树,回归树和分类树。在分类算法中,决策树是根基。现在常用的随机森林也是基于多个决策树集成的算法。从名称可以看出,决策树是含有分叉的树状算法。决策树思想是寻找最纯净的划分方法,每一步都寻找一个最优的特征进行划分。决策树简单图示:
根结点:它没有入边,但有零条或多条出边。
内部结点:恰有一条入边和两条或者多条出边。
叶结点:恰有一条入边,但没有出边。
父结点和子结点:一条有向边连接的两个结点,出边的结点是入边结点的父结点,而后者称为子结点。
二、特征选择
简单了解决策树的框架后,需要知道常见的几个概念。
1.误差率、熵、Gini指数
计算样本集合纯度的有三种方式,分别是误差率、熵和Gini指数。
误差率
其中i表示该类别中个数多的特征的个数,t表示该类别观测值数
熵
Gini指数