决策树的起源:
1、最早的决策树算法是由Hunt等人于1966年提出,Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART等
2、Hunt算法通过将训练记录相继划分为较纯的子集,以递归方式建立决策树。设Dt是与结点t相关联的训练记录集,而y = { y1, y2, …, yc}为类标号
3、Hunt算法的递归定义如下:
(1)如果Dt中所有的记录都属于同一个类yt,则结点t是叶子结点,用yt标记;
(2)如果Dt中包含多个类的记录,则选择一个属性测试条件,将记录划分为较小的子集。对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中,然后对每个子女结点递归地调用该算法;
决策树的概述:
- 一般,一棵决策树包含一个根节点,若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定的测试序列。决策树学习的目的是产生一棵泛化能力强,即处理未见示例强的决策树。
- 决策树示意图如下: 椭圆-----内部结点即划分属性 方框----叶子节点即分类后的样本
-
决策树的划分选择
- 信息增益
信息熵:当前样本集合D中第k类样本所占的比例为pk
信息熵的值越小,则D的纯度越高
信息增益:一般而言,信息增益越大,意味着使用属性a来进行划