决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点:可能会产生过度匹配问题
适用数据类型:数值型和标称型
决策树的一般流程
- 收集数据:可以使用任何方法
- 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化
- 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期
- 训练算法:构造树的数据结构
- 测试算法:使用经验树计算错误率
- 使用算法:此步骤可以 适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义
在划分数据集时,可以使用 ID3 算法
组织杂乱无章数据的一种方法就是使用信息论度量信息,在划分数据集之前之后信息发生的变化称为信息增益。
在Python中使用 Matplotlib 绘图。
在 python 中使用 pickle 模块来序列化对象。