用熵决策树问题的最基本思想:
我们一般可以通过信息熵来描述分类的混乱程度,如果标注的种类繁杂,说明信息非常混乱,如果标注就只有一种,或者大部分标注相同,那么说明这个数据集的信息比较整齐。用熵决策树的基本思想就是通过不断的划分数据集(通过用特征细化),是的信息熵尽量变小,也就是所谓的增大信息增益。通过不同的特征值来划分数据集,得到的信息增益是肯定不同的,熵决策树的目标就是找出最优的划分方法,此处的最优不仅仅只是最优增益的问题,还有过/欠拟合等问题,以后慢慢谈到
ID3:
ID3就是上述思想最简单的实现(具体算法可以见上一篇博文),通过比较用哪个特征划分样本得到的信息增益最大来构建决策树,有一点贪心算法的意思~
具体的构建树的伪代码如下:
在此有几个问