目录
本文部分图片来自《老饼讲解-机器学习》
一、决策树是什么
决策树(Decision Tree)又称判定树,是一个流程图形式的树结构,其中每个中间结点代表某个属性或某组属性上的测试,每个分支则对应了该测试的不同结果,每个叶结点代表某个类别或预测结果。从训练数据中产生决策树的算法,通常被称为决策树学习算法或决策树算法。
1.1 决策树模型
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。如下所示,是一个决策树的模型,它由节点开始,逐个判断样本变量的条件,最后判决样本的所属类别
1.2 决策树的学习
决策树是一种监督学习,所谓监督学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。决策树的学习过程使用信息增益或者GINI基尼系数来评估系统的凌乱程度,其中信息增益来自熵Entropy的概念。
信息增益公式如下:
GINI基尼系数公式如下:
1.3 决策树的应用
在实际应用中,决策树可用于许多不同的问题和领域,例如分类、回归、特征选择、异常检测等。此外,决策树还可以与其他算法结合使用,以构建更复杂的机器学习模型。
决策树的应用非常广泛,包括但不限于:
1.分类问题:
在决策树算法中,通过训练数据集,可以对每个样本进行分类。决策树在处理分类问题时,能够提供清晰的决策边界,同时能够解释模型决策的依据。
2.回归问题:
除了分类问题之外,决策树也可以用于回归问题。在回归问题中,决策树的每个节点代表一个特征或属性,每个分支代表一个可能的决策结果,最终的叶节点代表预测结果。
3.特征选择:
决策树在特征选择方面也很有用。通过观察决策树的分支,可以确定哪些特征对模型的贡献最大。
4.异常检测:
由于决策树可以清楚地显示决策边界,因此它们也可以用于异常检测。通过比较新的数据点与训练数据集中的数据点,可以确定新的数据点是否属于训练数据集中的正常模式。