海林格距离决策树的创新特点就是引入了海林格距离这个新的概念,这个概念的核心作用就是在决策树分支的时候充当决定分离标准的作用。
要介绍海林格距离决策树首先要简要介绍一下经典的决策树算法—— ID3决策树算法和C4.5决策树算法。大家特别要注意理解ID3决策树算法中的infogain(信息增益,用来判断测试哪个属性为最佳的分类属性的量)和C4.5中gain ratio(增益比率,也是该算法中用来判断测试哪个属性为最佳的分类属性的量,和海林格距离的作用一样)。
ID3
ID3算法思想描述:
a.对当前例子集合,计算属性的信息增益;
b.选择信息增益最大的属性Ai(关于信息增益后面会有详细叙述)