1-1 基本流程
决策树是一个有监督分类与回归算法。
决策树的生成只考虑局部最优,相对的,决策树剪枝则考虑全局最优。
一、概念:
决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。
二、划分依据:
①熵
物理学上,熵 Entropy 是“混乱” 程度的量度。
系统越有序,熵值越低;系统越混乱或者分散,熵值越高
信息理论:
1、当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。
2、当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。这是从信息的有序性上进行的描述。
假如事件A的分类划分是(A1,A2,…,An),每部分发生的概率是(p1,p2,…,pn),那信息熵定义为公式如下: