决策树算法既可以用于分类问题,又可以用于回归问题。针对分类问题,其目标在于根据属性对样本集合加以分支,使得各个分支所包含的样本集尽量只属于或者只包含一类。针对回归问题,其目标一般是使得各分支中所包含的样本目标函数(预测值跟真实值之间的偏差之和)最小化。
本文主要讨论决策树用于分类问题。二分类决策树算法是比较简单的一种决策树分类算法。决策树中比较关键的点就在于其中每个节点的分支策略,在某个节点进行分支时,如何分支,应该选择哪个特征执行分支时非常关键的。执行分支时,可以基于Gini系数或熵将某个节点分成两个子节点,分支目标是尽可能使得两个子节点中只包含两类中的其中一类,意即使得两个子节点都比较纯净。
子节点的基尼系数(也可以称作不纯度指标)计算公式如下:
由此可以得到父节点的基尼系数:
基于基尼系数分割决策树节点时,决策树的目标是使得基尼系数变小,即使得基尼增益越大越好