spark mllib源码分析之随机森林(Random Forest)（五）

最新推荐文章于 2024-05-12 08:12:24 发布

snaillup

最新推荐文章于 2024-05-12 08:12:24 发布

阅读量2k

点赞数 4

分类专栏： spark 文章标签： spark 源码随机森林 random-forest-实现

本文链接：https://blog.csdn.net/snaillup/article/details/72820346

版权

本文深入分析了Spark MLlib中随机森林的实现，包括构造随机森林的过程、TreeEnsembleModel和RandomForestModel的细节。重点讨论了模型的保存与加载机制，并指出在特征处理和模型应用中的注意事项，如特征ID的转换、离散特征的处理和maxBins的设定。通过对源码的解读，有助于读者更好地理解和应用随机森林算法。

摘要由CSDN通过智能技术生成

spark源码分析之随机森林(Random Forest)（一）
spark源码分析之随机森林(Random Forest)（二）
spark源码分析之随机森林(Random Forest)（三）
spark源码分析之随机森林(Random Forest)（四）

7. 构造随机森林

在上面的训练过程可以看到，从根节点topNode中不断向下分裂一直到触发截止条件就构造了一棵树所有的node，因此构造整个森林也是非常简单

//构造
val trees = topNodes.map(topNode => new DecisionTreeModel(topNode, strategy.algo))
//返回rf模型
new RandomForestModel(strategy.algo, trees)

8. 随机森林模型

8.1. TreeEnsembleModel

随机森林RandomForestModel继承自树集合模型TreeEnsembleModel

class TreeEnsembleModel(
    protected val algo: Algo,
    protected val trees: Array[DecisionTreeModel],
    protected val treeWeights: Array[Double],
    protected val combiningStrategy: EnsembleCombiningStrategy)

algo：Regression/Classification
trees：树数组
treeWeights：每棵树的权重，在RF中每棵树的权重是相同的，在Adaboost可能是不同的
combiningStrategy：树合并时的策略，Sum/Average/Vote，分类的话应该是Vote，RF应该是Average，GBDT应该是Sum。
sumWeights：成员变量，不在参数表中，是treeWeights的sum

预测函数

/**
   * Predicts for a single data point using the weighted sum of ensemble predictions.
   *
   * @param features array representing a single data point
   * @return predicted category from the trained model
   */
  private def predictBySumming(features: Vector): Double &#