简单理解决策树
一、决策树学习简介
-
决策树学习是一种逼近离散值目标函数的方法,
决策树学习是通过某种手段对离散的目标函数的进行近似逼近的过程 -
这种方法将从一组训练数据中学习到的函数表示为一棵决策树。
该方法的基础是一组给定的样本数据,生成的函数表现为一棵决策树
-
决策树叶子为类别名,其他的结点由实体的特征组成,每个特征的不同取值对应一个分枝。
-
若要对一个实体分类,从树根开始进行测试,按特征的取值向下进入新结点,对新结点进行测试,
过程一直进行到叶结点,实例被判为属于该叶子结点所标记的类别。
-
它可以表示任意的离散函数和离散特征,可以将实例分成两个或多个类。
二、决策树学习的过拟合问题产生原因
01 决策树的生长过程
-
决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法。
-
决策树的每个内部结点是对属性的一个测试,每个分支代表一个测试输出,每个叶结点表示某个类别或类别的分布。
-
当一个待分类的样本沿根结点经内部结点的测试达到某个叶结点时,则判定该样本属于此叶结点所标识的类别。
-
建立决策树的过程,即树的生长过程是不断地把训练数据集进行划分的过程,每次划分对应一个属性,也对应着一个内部结点,划分所选的属性应使划分后的分纵“差异”最大。
-
决策树生成算法的不同主要体现在对“差异”的衡量方式上。
理解为:”分类的标准“
-
通常直接生成的完全决策树不能立即用于对未知样本进行分类。
-
由于完全决策树对训练样本的特征描述得“过于精确”,无法实现对新样本的合理分析,所以此时它不是一棵分析新数据的最佳决策树。
02 过拟合问题
-
一棵完全决策树能非常准确地反映训练集中数据的特征,但因失去了一般代表性而无法用于对新数据的分类或预测,这种现象一般称为“过拟合”。
-
给出过拟合的定义
给定一个假设 H H H,如果在假设空间上存在另一个假设 H ′ H' H′,使得在训练集上 H H H 的错误率比 H ′ H' H′ 小,
而在测试集上 H H H 的错误率却比 H ′ H' H′ 要大,那么称假设 H H H 过度拟合训练数据。
试图翻译:针对某一问题,如果算法过程在样本数据中的表现比测试数据要好得多,则该问题过拟合。
-
当决策树的深度达到一定的值时,此时叶子结点中的对象只剩下一个或者很少,导致决策树的模型过于复杂,从而造成过拟合问题,泛化能力下降。
-
通常导致决策树过拟合的原因有多种,但主要有以下两种:
-
噪声数据导致过分拟合
在现实世界中,数据伴有随机的错误或噪声往往是难以完全避免的。
例如在对用户是否离网的分类中,目标变量“是否流失”可能被错误的标记,利用此数据拟合得到的模型,就有可能因为拟合错误标记的训练记录,导致在模型应用阶段产生错误分类,不能很好的进行推广。
-
缺乏代表性样本导致过分拟合
在训练数据缺乏具有代表性的样本的情况下,往往需要继续细化模型才能得到较好拟合训练集的模型,
这样得到的模型同样可能具有较高的泛化误差。
-