决策树分类器

优点: 决策树计算复杂度不高,输出结果易于理解,对中间值缺失不敏感;缺点:可能会产生过度匹配的问题。适用于连续性和离散型数据;
专家系统中经常使用决策树,而且决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。

 

 

在如图的样本集中,我们如何构造决策树?或者决策树最根本的问题是什么?

一共5个样本,2个信号特征,分为2类。那么要构造决策树,把那个特征作为第一个划分的依据呢?

划分数据集的最大原则:将无序的数据变得更加有序。划分数据集前后信息发生的变化成为信息增益——熵。

熵定义为信息的期望值。如果待分类的事物可能划分在多个分类中,则符号信息定义为

 

 

我们尝试按照第一特征和第二特征以此分类样本集,分别计算每次划分的 熵的大小。取最小的熵值作为划分的依据;
首先计算原始样本集的熵,记为sum0;

比如:按照第一特征,数据划分为A{[1,1],[1,1],[0,0]}和B{[1,0],[1,0]}, 分别计算两个 集合的熵,相加为sum1;

按照第二特征,数据划分为C{[1,1],[1,1],[0,0],[0,0]}和D{[1,0]}, 分别计算两个集合的熵,相加sum2;

最后,取三者的最小值。如果sum1和sum2 都大于sum0,则表明分类失败;

然后,按照此过程重复进行,直到该分支下的类别都一样。

 

参考资料:《机器学习实战》 Peter Harrington

 

转载于:https://www.cnblogs.com/hdu-2010/p/5314937.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值