基于香农熵的决策树算法

基于香农熵的决策树算法


《机器学习实战》一书中有介绍构造决策树的算法。
所谓决策树就是已知一些项特征的信息和项最终分类,求通过特征判断项最终分类的递归决策树。例如书中的例子是判断一个动物是不是鱼类,下面为一个数据集。

def createDataSet():
	dataSet = [\
		[1, 1, 'yes'],
		[1, 1, 'yes'],
		[1, 0, 'no'],
		[0, 1, 'no'],
		[0, 1, 'no']]
	labels = ['no surfacing', 'flippers']
	return dataSet, labels

书里举的另一个例子是隐形眼镜的问题。书里提供了绘图引擎用于绘制决策树。


算法大致流程是:
1.获得数据集
2.找到一个好的特征划分数据集为两部分
3.递归这一过程直到数据集内全部为同种类
4.打印由上述划分确定的树状结构


那么如何划分数据集,也就是如何确定最佳划分状态?当然是信息量大的划分。信息量可以用香农熵刻画。
U ( s ) = − Σ ( p i ∗ l o g 2 p i ) , 其 中 P ( s = s i ) = p i , 且 { s i } 为 s 的 一 个 划 分 U (s)= -\Sigma(p_i*log_2^{p_i}),其中P(s=s_i)=p_i,且\{s_i\}为s的一个划分 U(s)=Σ(pilog2pi)P(s=si)=pi{ si

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值