决策树分类器

最新推荐文章于 2023-08-24 11:23:45 发布

weixin_30537391

最新推荐文章于 2023-08-24 11:23:45 发布

阅读量97

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/hdu-2010/p/5314937.html

版权

优点：决策树计算复杂度不高，输出结果易于理解，对中间值缺失不敏感；缺点：可能会产生过度匹配的问题。适用于连续性和离散型数据；
专家系统中经常使用决策树，而且决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。

在如图的样本集中，我们如何构造决策树？或者决策树最根本的问题是什么？

一共5个样本，2个信号特征，分为2类。那么要构造决策树，把那个特征作为第一个划分的依据呢？

划分数据集的最大原则：将无序的数据变得更加有序。划分数据集前后信息发生的变化成为信息增益——熵。

熵定义为信息的期望值。如果待分类的事物可能划分在多个分类中，则符号信息定义为

我们尝试按照第一特征和第二特征以此分类样本集，分别计算每次划分的 熵的大小。取最小的熵值作为划分的依据；

首先计算原始样本集的熵，记为sum0;

比如：按照第一特征，数据划分为A{[1,1],[1,1],[0,0]}和B{[1,0],[1,0]}, 分别计算两个 集合的熵，相加为sum1；

按照第二特征，数据划分为C{[1,1],[1,1],[0,0],[0,0]}和D{[1,0]}, 分别计算两个集合的熵，相加sum2；

最后，取三者的最小值。如果sum1和sum2 都大于sum0，则表明分类失败；

然后，按照此过程重复进行，直到该分支下的类别都一样。

参考资料：《机器学习实战》 Peter Harrington

转载于:https://www.cnblogs.com/hdu-2010/p/5314937.html

weixin_30537391

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树分类器

优点：决策树计算复杂度不高，输出结果易于理解，对中间值缺失不敏感；缺点：可能会产生过度匹配的问题。适用于连续性和离散型数据；专家系统中经常使用决策树，而且决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家。在如图的样本集中，我们如何构造决策树？或者决策树最根本的问题是什么？一共5个样本，2个信号特征，分为2类。那么要构造决策树，把那个特征作...
复制链接

扫一扫