深入机器学习系列之：Decision Tree

最新推荐文章于 2024-04-29 12:14:03 发布

数据猿

最新推荐文章于 2024-04-29 12:14:03 发布

阅读量456

点赞数

640?wx_fmt=gif

640?wx_fmt=jpeg

导读

决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。

640?wx_fmt=jpeg

来源：星环科技丨作者：智子AI

数据猿官网 | www.datayuan.cn

640?wx_fmt=jpeg

今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区

640?wx_fmt=png

Decision Tree：决策树

640?wx_fmt=jpeg

决策树理论

1

什么是决策树

决策树，顾名思义，是一种树，一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。

2

决策树学习流程

决策树学习的主要目的是为了产生一棵泛化能力强的决策树。其基本流程遵循简单而直接的“分而治之”的策略。它的流程实现如下所示：

输入：训练集 D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)};
属性集 A={a_1,a_2,...,a_d}
过程：函数GenerateTree(D,A)
1: 生成节点node；
2: if D中样本全属于同一类别C then
3:    将node标记为C类叶节点，并返回
4: end if
5: if A为空 OR D中样本在A上取值相同 then
6:    将node标记为叶节点，其类别标记为D中样本数量最多的类，并返回
7: end if
8: 从A中选择最优划分属性 a*；    //每个属性包含若干取值，这里假设有v个取值
9: for a* 的每个值a*_v do
10:    为node生成一个分支，令D_v表示D中在a*上取值为a*_v的样本子集；
11:    if D_v 为空 then
12:       将分支节点标记为叶节点，其类别标记为D中样本最多的类，并返回
13:    else
14:       以GenerateTree(D_v,A\{a*})为分支节点
15:    end if
16: end for

决策树的生成是一个递归的过程。有三种情况会导致递归的返回：

（1）当前节点包含的样本全属于同一个类别。（2）当前属性值为空，或者所有样本在所有属性上取相同的值。

（3）当前节点包含的样本集合为空。

在第（2）中情形下，我们把当前节点标记为叶节点，并将其类别设定为该节点所含样本最多的类别；在第（3）中情形下，同样把当前节点标记为叶节点，但是将其类别设定为其父节点所含样本最多的类别。这两种处理实质不同，前者利用当前节点的后验分布，后者则把父节点的样本分布作为当前节点的先验分布。

3

决策树的构造

构造决策树的关键步骤是分裂属性（即确定属性的不同取值，对应上面流程中的a_v）。所谓分裂属性就是在某个节点处按照某一属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。分裂属性分为三种不同的情况：

1、属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。

2、属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。

3、属性是连续值。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

4

划分选择

在决策树算法中，如何选择最优划分属性是最关键的一步。一般而言，随着划分过程的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度(purity)”越来越高。有几种度量样本集合纯度的指标。在MLlib中，信息熵和基尼指数用于决策树分类，方差用于决策树回归。

1：信息熵

信息熵是度量样本集合纯度最常用的一种指标，假设当前样本集合D中第k类样本所占的比例为p_k，则D的信息熵定义为：

640?wx_fmt=jpeg

2 基尼系数

采用和上式相同的符号，基尼系数可以用来度量数据集D的纯度。

640?wx_fmt=jpeg

直观来说，Gini(D)反映了从数据集D中随机取样两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高。

3：方差

MLlib中使用方差来度量纯度。如下所示

640?wx_fmt=jpeg

4 ：信息增益

假设切分大小为N的数据集D为两个数据集D_left和D_right，那么信息增益可以表示为如下的形式。

640?wx_fmt=jpeg

一般情况下，信息增益越大，则意味着使用属性a来进行划分所获得的纯度提升越大。因此我们可以用信息增益来进行决策树的划分属性选择。即流程中的第8步。

5

决策树的优缺点

决策树的优点：

1 决策树易于理解和解释；

2 能够同时处理数据型和类别型属性；

3 决策树是一个白盒模型，给定一个观察模型，很容易推出相应的逻辑表达式；

4 在相对较短的时间内能够对大型数据作出效果良好的结果；

5 比较适合处理有缺失属性值的样本。

决策树的缺点：

1 对那些各类别数据量不一致的数据，在决策树种，信息增益的结果偏向那些具有更多数值的特征；

2 容易过拟合；

3 忽略了数据集中属性之间的相关性。

实例与源码分析

1

实例

下面的例子用于分类。

640?wx_fmt=png

下面的例子用于回归。

640?wx_fmt=png

2

源码分析

在MLlib中，决策树的实现和随机森林的实现是在一起的。随机森林实现中，当树的个数为1时，它的实现即为决策树的实现：

640?wx_fmt=png

这里的strategy是Strategy的实例，它包含如下信息：

640?wx_fmt=png

决策树的实现我们在随机森林专题介绍。这里我们只需要知道，当随机森林的树个数为1时，它即为决策树，并且此时，树的训练所用的特征是全部特征，而不是随机选择的部分特征。即featureSubsetStrategy = "all"。

数据猿读者亲启：

名企&大佬专访精选

向下滑动启阅

以下文字均可点击阅读原文

跨国外企：

谷歌大中华及韩国区数据洞察与解决方案总经理郭志明丨 IBM中国区开发中心总经理吉燕勇丨微软中国CTO官韦青丨前微软中国CTO黎江丨VMware中国区研发中心总经理任道远

中国名企：

联想集团副总裁田日辉丨首汽租车COO 魏东

阿里巴巴数据经济研究中心秘书长潘永花

搜狗大数据研究院院长李刚丨易观CTO郭炜

前上海证券交易所副总裁兼CTO白硕丨携程商旅亚太区CMO 邱斐丨艾瑞集团CTO郝欣诚丨泰康集团大数据部总经理周雄志丨上海链家研究院院长陈泽帅丨蓝色光标首席数据科学家王炼

知名学者：

北大新媒体研究院副院长刘德寰丨中科院基因研究所方向东

创业明星:

地平线机器人创始人兼CEO余凯丨天工科仪董事长王世金丨ZRobot CEO乔杨丨天眼查创始人兼CEO柳超丨第四范式联合创始人兼首席架构师胡时伟丨天云大数据CEO雷涛丨Kyligence联合创始人兼CEO韩卿丨数之联创始人兼CEO周涛丨明略数据董事长吴明辉丨91征信创始人兼CEO 薛本川丨智铀科技创始人、CEO及首席科学家夏粉丨易宝支付联合创始人兼总裁余晨丨海云数据创始人兼CEO冯一村丨星环科技COO佘晖丨碳云智能联合创始人兼首席科学家李英睿

知名投资人：

前IDG创始合伙人、火山石资本创始人章苏阳

华创资本合伙人熊伟铭丨六禾创投总裁王烨

信天创投合伙人蒋宇捷丨青域基金执行总裁牟颖

蓝驰创投合伙人朱天宇

——数据猿专访部

（可上下滑动启阅）

640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=gif

▲向上滑动

采访/报道/投稿

640?wx_fmt=jpeg

yaphet.zhang@datayuan.cn

商务合作

640?wx_fmt=jpeg

18600591561（微信）

长按右方二维码

关注我们ˉ►

640?wx_fmt=jpeg

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数据猿 CSDN认证博客专家 CSDN认证企业博客

码龄7年

1593: 原创

-: 周排名

344: 总排名

338万+: 访问

: 等级

4万+: 积分

3825: 粉丝

5227: 获赞

212: 评论

6283: 收藏

私信

关注

热门文章

最新评论

商汤科技2024半年财报深度解析：降本增效后，现状究竟如何？
深度学习服务器: 据传：商汤裁员，赔偿N+1？商汤亏损：累计亏损528亿元。2018: - 34.33亿元；2019: - 49.68亿元；2020: - 121.58亿元；2021: - 171.77亿元；2022: - 60.93亿元；2023: - 64.95亿元；2024上半年：- 24.57亿元。
特斯拉财报看点：FSD拳打华为，Robotaxi 脚踢百度
穷苦书生_万事愁: 博主的这篇文章真是让我眼前一亮，对于特斯拉财报中的FSD和Robotaxi的分析，博主的观点非常独到，让我受益匪浅。文章中细节描写精准，让我对这个领域有了全新的认识。博主的文字深刻且具有说服力，让我感受到了博主的专业水平和不凡见解。盼望博主能够继续保持高水准的文章质量，为我们带来更多有价值的内容。期待与博主共同进步，共同探讨！再次感谢博主的辛苦付出和分享！
特斯拉财报看点：FSD拳打华为，Robotaxi 脚踢百度
穷苦书生_万事愁: 博主的这篇关于特斯拉财报的文章让我眼前一亮，内容丰富，观点独特。通过博主的深度分析，我对于FSD和Robotaxi这两个概念有了更清晰的认识，对特斯拉在人工智能和无人驾驶领域的发展方向也有了更深入的了解。博主的文字流畅自然，逻辑清晰，令人印象深刻。希望博主能够继续保持优质的创作水准，为我们带来更多有价值的内容。非常感谢博主的辛勤付出和分享！
特斯拉财报看点：FSD拳打华为，Robotaxi 脚踢百度
穷苦书生_万事愁: 博主的文章真是让我眼前一亮，对于特斯拉财报的解读让我有了全新的认识。文章详细描绘了FSD与华为的碰撞，以及Robotaxi与百度的竞争，让我对这些信息有了更深入的理解。博主的专业功底和细致的分析让我受益匪浅，期待博主能够继续分享更多有价值的文章。同时也希望能够得到博主的指点和帮助，共同进步。非常感谢博主的辛苦分享和支持！
自动驾驶事故频发，安全痛点在哪里？
xiaopea: 还有更重要的就是国人驾驶不规范，路上交通混乱导致

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。