1.决策树基础
-
什么是决策树:
通俗来讲,决策树就是一种监督学习的分类方法,它通过一些拥有属性和类别的样本,生成如下一个分类器,这个分类器能够对新出现的对象进行正确分类。
-
构建决策树过程中的重要问题
构建决策树的过程是样本集不断划分的过程,开始的时候所有的数据样本位于根节点上,然后通过不断的选择划分属性和划分标准对节点数据进行划分,直到满足停止分裂的条件。因此构建决策树的过程存在以下三个重要的问题:
①训练数据怎么分裂
对于离散数据,我们可以按属性的值进行划分,也可以将属性的值归类之后进行划分:
对于连续的数据,我们可以将数据进行排序之后划分:
②如何选择分类属性
对于一个数据集来说,由于它的属性有许多,划分的方法甚至也不同,如以下例子,这个例子是构建决策树,通过有无房,婚姻状况和年收入判断某个用户是否会拖欠贷款。
在构建决策树的过程中,我们既可以根据有无房进行分类,也可以通过婚姻状况进行分类。那么哪种分类是最好的呢?
选择最佳划分的度量通常是根据划分后子结点不纯性的程度。不纯度越低,类分布就越倾斜,该属性越适合做为分类依据。不纯度度量的常用方法有三种:熵(Entropy)、基尼指数(Gini)、分类误差(ion_error)
当选择熵对上面的例子进行求解时: