本文为作者学习决策树后的整理笔记,仅供学习使用!
决策树
1、概述
决策树(Decision Tree)实在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于0的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
2、基本原理
(1)工作原理:
a、获取原始数据集
b、基于最好的属性值划分数据集
c、数据将向下传递到树分支的下一个节点,再这个节点上,可以再次对数据进行划分
(2)递归结束的条件:
a、程序遍历完所有划分数据集的属性
b、每个分支下的所有实力都具有相同的分类
3、优缺点
(1)优点
计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
(2)缺点
可能会产生过度匹配问题(过拟合)
适用数据类型:数值型和标称型
4、一般流程
(1)收集数据:可以使用任何方法
(2)准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化(数据预处理)
(3)分析数据:可以使用任何方法,构造树完成之后,检查图形是否符合预期
(4)训练算法:构造树的数据结构
(5)测试算法:使用经验树计算错误率
(6)使用算法:此步骤可以使用于任何监督学习算法
5、构建决策树:ID3是算法
(1)简介
a、对于实例,计算各个实例的信息增益
b、将信息增益最大的属性作为根节点,根节点的各个取值作为子集进行分类
c、对于子集下, 若只含有正例或反例,直接得到判决;否则递归调用算法,再次寻找子节点
(2)公式以及名词解释
a、公式