spark(1.1) mllib 源码分析(三)-决策树

最新推荐文章于 2022-01-26 09:16:06 发布

胖子依然6

最新推荐文章于 2022-01-26 09:16:06 发布

阅读量287

点赞数 1

原文链接：https://www.cnblogs.com/tovin/p/4030493.html

版权

本文主要以mllib 1.1版本为基础，分析决策树的基本原理与源码

一、基本原理

二、源码分析

　　1、决策树构造

　　　　指定决策树训练数据集与策略（Strategy）通过train函数就能得到决策树模型DecisionTreeModel

　　　　决策树策略包含了：algo（算法类型：分类、回归），impurity（信息增益计算算法）、maxDepth（数最大深度）、

　　　　　　　　　　　　　numClassesForClassification（数分类分支数目，为2就是二叉数），maxBins（特征变量最大的分类数目限制）、

　　　　　　　　　　　　　quantileCalculationStrategy（分位数计算方法）、categoricalFeaturesInfo（每个特征的分类数目）

　　　　　　

　　2、模型训练

　　　　（1）DecisionTree的模型训练函数train主要包含了findSplitsBins、findBestSplits、DecisionTreeModel三部分（入下图所示，为了方便分析，不重要的代码做了删减）

　　　　　　步骤一：findSplitsBins找出数据集中每个变量（Features）对应的所有分裂方式

　　　　　　步骤二：findBestSplits通过计算信息增益来寻找每个节点的最佳的分裂点

　　　　　　步骤三：DecisionTreeModel构造决策树模型

　　　　　　　　

　　　　（2）findSplitsBins

　　　　　　通过抽样的方法来近似分位数的计算，抽样样本的的最大数目为maxBins*maxBins

　　　　　　　　

　　　　　　针对每个变量进行迭代，如果是特征是连续变量，先对数据进行排序，然后对数据进行分箱，切成maxBins块，

　　　　　　每块的数目是stride个。对于maxBins块数据则存在maxBins-1种分裂方式。　　

　　　　　　　　

　　　　　　例如：数据集合data包含1000条数据，两个变量，第一个变量从0-999，第二个变量从999-0

　　　　　　　　

　　　　　　可以看出splits的分裂方式有99种

　　　　　　　　

　　　　　　具体split分裂点的threshold

　　　　　　　　　　　　　

　　　　　　如果特征变量属于离散变量，又分为2种情况，有序的和无序的

　　　　　　对于无序的离散变量，如果它有n个分类，则分裂的方式就有2^n-1种

　　　　　　　　

　　　　　　如下数据集合包含1000条数据，2个变量。每个变量包含2种分类且是无序的。通过debug可以看出每个变量都有3个split

　　　　　　　　

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark(1.1) mllib 源码分析(三)-决策树

本文主要以mllib 1.1版本为基础，分析决策树的基本原理与源码一、基本原理二、源码分析　　1、决策树构造　　　　指定决策树训练数据集与策略（Strategy）通过train函数就能得到决策树模型DecisionTreeModel　　　　决策树策略包含了：algo（算法类型：分类、回归），impurity（信息增益计算算法）、maxDepth（数最大深度）、　　　　...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。