[机器学习实战札记] 决策树

最新推荐文章于 2022-03-02 11:17:34 发布

云水木石

最新推荐文章于 2022-03-02 11:17:34 发布

阅读量316

点赞数

分类专栏： 0.人工智能文章标签：机器学习机器学习实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mogoweb/article/details/79632726

版权

0.人工智能专栏收录该内容

93 篇文章 38 订阅

订阅专栏

决策树(decision tree)是一类常见的机器学习方法。顾名思义，决策树是基于树结构来进行决策的，这恰是人类在面临决策问题时一种很自然的处理机制。一颗决策树包含一个根节点、若干个内部节点和若干个叶节点。叶节点对应于决策结果，其他每个节点则对应于一个属性测试。

决策树学习的目的是从样本数据产生一颗泛化能力强的决策树，其基本流程遵循简单且直观的“分而治之”策略：

Function createBranch

    检测数据集中的每个子项是否属于同一分类：
    If so return 类标签
    Else
        寻找划分数据集的最好特征
        划分数据集
        创建分支节点
            for 每个划分的子集
                调用createBranch并增加返回结果到分支节点中
        return 分支节点

算法有两个要点：

寻找划分数据集的最好特征
递归

划分数据集的大原则是：将无序的数据变得更加有序。组织杂乱无章数据的一种方法就是使用信息论度量信息，信息论是量化处理信息的分支科学。

在划分数据集之前和之后信息发生的变化成为信息增益，获得信息增益最高的特征就是最好的选择。

“信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。其定义为：

其中p(xi)是选择该分类的概率，n是分类的数目。分类的概率可以用所有类标签的发生频率来计算。

对每个特征划分数据集的结果计算一次信息熵，然后判断按照哪个特征划分数据集是最好的划分方式。

得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，数据将被向下传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据，可以采用递归的原则处理数据集。

递归结束的条件是：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。

本章使用的算法成为ID3，无法直接处理数值型数据，尽管我们可以通过量化的方法将数值型数据转化为标称型数值，但如果存在太多的特征划分，ID3算法仍然会面临其他问题。

参考

《机器学习实战》, p32 ~ 52
《机器学习》, p73 ~ 79

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

云水木石 CSDN认证博客专家 CSDN认证企业博客

码龄14年

360: 原创

1万+: 周排名

1825: 总排名

143万+: 访问

: 等级

1万+: 积分

1809: 粉丝

1885: 获赞

997: 评论

4327: 收藏

私信

关注

热门文章

分类专栏

最新评论

Deepin V23，转正了
一只向往自由的猹: 你没有年假吗
Deepin V23，转正了
supermy: 驱动全一点，办公套件选好一点。
Deepin V23，转正了
Python老吕: Linux内核就像是发动机，这个比喻能接受，但是不贴切。适合新手理解Linux内核是什么罢了。文章里面我只是看到了deepin的广告罢了，不管怎么说，始终是Linux套个皮，毛坯房装修一下。不过，起码有人先学会在别人的系统基础上套个皮，也算是进步。在中国往往想做系统内核的人，生活压力太大，手停口停，不然也能抽时间专门去研究开发自己的内核。
Deepin V23，转正了
qq_40303853: 头痛不敢请假，会被领导批评。有一种情况，领导不会批评，那就是今天请假该扣的工资扣了，然后星期天来义务补一天班(周六正常上班)。思来想去，还是忍着吧
Deepin V23，转正了
m0_62614312: 还有11分钟下班

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

云水木石 但行好事，莫问前程

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。