Decision Tree算法(决策树)
1.定义
决策树是一种十分常用的分类方法。
决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
2.主要思想
决策树分类主要思想是通过特征选择和剪枝在已有的样本数据上建立一棵决策树。常见的决策树算法包括 ID3、C4.5、CART、随机森林等。
2.1特征选择
即如何选择最优划分属性。
随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。如何衡量一个数据集纯度,这里就需要引入数据纯度函数。下面将介绍两种表示数据纯度的函数。
2.1.1.信息增益
“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为