基于香农熵的决策树算法
《机器学习实战》一书中有介绍构造决策树的算法。
所谓决策树就是已知一些项特征的信息和项最终分类,求通过特征判断项最终分类的递归决策树。例如书中的例子是判断一个动物是不是鱼类,下面为一个数据集。
def createDataSet():
dataSet = [\
[1, 1, 'yes'],
[1, 1, 'yes'],
[1, 0, 'no'],
[0, 1, 'no'],
[0, 1, 'no']]
labels = ['no surfacing', 'flippers']
return dataSet, labels
书里举的另一个例子是隐形眼镜的问题。书里提供了绘图引擎用于绘制决策树。
算法大致流程是:
1.获得数据集
2.找到一个好的特征划分数据集为两部分
3.递归这一过程直到数据集内全部为同种类
4.打印由上述划分确定的树状结构
那么如何划分数据集,也就是如何确定最佳划分状态?当然是信息量大的划分。信息量可以用香农熵刻画。
U ( s ) = − Σ ( p i ∗ l o g 2 p i ) , 其 中 P ( s = s i ) = p i , 且 { s i } 为 s 的 一 个 划 分 U (s)= -\Sigma(p_i*log_2^{p_i}),其中P(s=s_i)=p_i,且\{s_i\}为s的一个划分 U(s)=−Σ(pi∗log2pi),其中P(s=si)=pi,且{
si