决策树算法是分类算法中最常用的算法之一。决策树是一种类似流程图的树形结构,可以处理高维数据,直观易理解,且准确率较高,因此应用广泛。本篇小博就决策树的若干算法:ID3算法、C4.5算法以及分类回归树(CART)、C5.0进行对比介绍,并对比C4.5与C5.0处理较大数据集时的效率,观察C5.0效率提升了多少。
一、概况
算法名称 | 分类属性选取标准 | 标准描述 | 优点 | 缺点 |
ID3 | 信息增益 | 该分类属性带来的熵的变化 | 。。 | ① 只能描述属性为离散型的变量;②偏向具有许多输出的测试,即总是倾向于选择包含多取值的参数,因为参数的取值越多,其分割后的子节点纯度可能越高。采用极限思维,若分类属性 |