Spark 机器学习 —— 从决策树到随机森林

最新推荐文章于 2024-07-15 17:08:19 发布

五道口纳什

最新推荐文章于 2024-07-15 17:08:19 发布

阅读量1.8k

点赞数

分类专栏： Hadoop-Scala-Spark

本文链接：https://blog.csdn.net/lanchunhui/article/details/51218894

版权

Hadoop-Scala-Spark 专栏收录该内容

34 篇文章 2 订阅

订阅专栏

构造训练数据

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

val rawdata = sc.textFile("covtype.data")
val data = rawdata.map{ line =>
    val row = line.split('\t').map(_.toDouble)
    val featVec = Vectors.dense(row.init)
    val label = row.last - 1
    LabeledPoint(featVec, label)
}

MLlib 中的决策树模型要求 label 从 0 开始

随机森林

独立 ==> 并行？

在大数据的背景下，随机森林非常有吸引力，因为构成决策树的随机森林通常是独立构造的（这点不同与 AdaBoost），诸如 Spark 和 MapReduce 这样的大数据技术本质上适合数据并行问题。

五道口纳什

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark 机器学习 —— 从决策树到随机森林

构造训练数据import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointval rawdata = sc.textFile("covtype.data")val data = rawdata.map{ line => val row = line.spli
复制链接

扫一扫