决策树
决策树
每次选择一个特征进行划分,信息依照该特征划分可以选择最大增益划分。划分后将该特征移除,一直到所有训练数据均已分类成功或所有特征均已经使用
优点
- 计算复杂度不高
- 输出结果易于理解
- 对中间值的缺失不敏感
- 可以处理不相关特征数据
缺点
可能会产生过度匹配的问题
适用数据类型
数值型数据和标称型数据
一般流程
- 收集数据
- 准备数据:书构造算法只适用于标称型数据,因此数值型数据必须离散化
- 分析数据:构造树完成之后,应该检查图形是否符合预期
- 训练算法:构造树的数据结构
- 测试算法:适用经验树计算错误率
- 使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好的理解数据的内在含义