ID3决策树分类算法
基本步骤流程 :
- 计算给定数据的原始熵
- 划分数据集
- 选择最好的特征划分数据集
- 构建树的结构
- 使用决策树执行分类
- 决策树的存储和调用
- 绘制树形图
决策树:是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶子节点代表一种类别。
- 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以知道哪些特征重要哪些不太重要
- 缺点:可能会产生过度匹配问题
划分数据的原则是:将无序的数据变得更加有序。那么怎么衡量一堆数据的混乱程度呢,信息论之父克劳德.香农提出了熵,也叫作香农熵。计算公式为,当为确定事件时,即概率为0或1时,熵都为0,说明此时数据是有序的,