一、决策树技术概述
1、准备
在利用决策树技术对数据分析之前,一般要作如下准备工作:
第一,变量的指定。指定分析对象中的某个变量为目标变量(困变量),指定其他相关变量为输人变量(自变量)。目标变量和输人变量类型可以是定距的,也可以是定类或定序的。例如,在客户关系管理应用中,利用决策树建立对理想客户的分析模型之前,可以将客户数据中有关客户特征的描述变量(如:年龄、年收人、学历、最近消费频率等)作为输人变量,而将理想客户的评价变量(如:未来消费金额,是否为理想客户等)作为目标变量。
第二,数据集的划分。根据决策树算法的要求,应将收集到的数据按适当比例随机羽成训练样本集和检验样本集。其中训练样本集是建立决策树的依据,检验样本集主要用于决策树的优化或对决策树分类预测效果的检验。
2、决策树的理解
可以从几何意义上直观理解决策树的含义。可以将训练样本集中的每一个数据看成是n维(n个输人变量)空间上的一个点。决策树模型的建立过程是决策树各个分枝形成的过程,决策树的每个分枝在一定规则下完成对n维空间的区域划分。当决策树建立好以后,n维空间便被划分成了若干个小区域。通常情况下,由于n维空间不直观,不易于理解,因此往往采用树型结构图的形式展现决策树。