本文学习自 https://zhuanlan.zhihu.com/ml-jack
决策树
1、决策树是什么
是一种基本的分类与回归方法。
长方形代表判断模块(decision block),椭圆形成代表终止模块(terminating block),表示已经得出结论,可以终止运行。
决策树由结点和有向边构成。结点可分为内部结点(非叶结点)和叶子结点。内部结点表示一个特征或属性,叶结点表示一个类。
可以把决策树从根结点到叶子结点的路径,看作if-then规则的过程。路径上内部结点的特征对应着规则的条件,而叶结点的类对应着规则的结论。决策树的路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。也就是说,对于一个实例,有且只有一条路径可以从根走到叶子结点。
使用决策树的过程:
- 收集数据:可以使用任何方法。比如想构建一个相亲系统,我们可以从媒婆那里,或者通过参访相亲对象获取数据。根据他们考虑的因素和最终的选择结果,就可以得到一些供我们利用的数据了。
- 准备数据:收集完的数据,我们要进行整理,将这些所有收集的信息按照一定规则整理出来,并排版,方便我们进行后续处理。
- 分析数据:可以使用任何方法,决策树构造完成之后,我们可以检