1、什么是决策树;(decision tree)
决策树是一种树型结构,其中:
每个内部的结点表示在一个属性的测试;
每个分支代表一个测试的输出;
每个叶节点代表一种类别;
决策树是以实例为基础的归纳学习,采取的是自顶向下的递归方法;
其基本思想是,以信息熵为度量构建一颗熵值下降最快的树,到叶子结点处的熵值为0,此时所有的叶节点的熵值都属于同一类。
附上:叶节点的信息熵公式为:
2、决策树算法的整体特点:
最大的特点是,可以自学习,不要求过多的理论知识,只需要对训练实例能进行较好的标注。
属于有监督学习,是从一群无序、无规则(概念)中推理出决策树表示的分类规则。
3、生成算法的整体思路:
决策树的关键在于:
Step 1、如何评估当前的状态?
Step 2、如何确定,在当前状态下选择哪个属性为分类依据?
Step 3、如何评估决策树模型?
Step 4、如何解决过拟合问题?
在此之前,我们先需要理清相关概念。
4、基本概念:
接下来解释五个概念,分别有信息熵、信息增益、经验条件熵、信息增益率、Gini系数。
4.1、信息熵:Entropy
信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。