spark之MLlib机器学习-线性回归

最新推荐文章于 2021-12-26 12:08:38 发布

_飞奔的蜗牛_

最新推荐文章于 2021-12-26 12:08:38 发布

阅读量965

点赞数

分类专栏： MLlib spark 大数据技术机器学习与数据挖掘文章标签：机器学习 spark mllib

本文链接：https://blog.csdn.net/dataningwei/article/details/63798706

版权

机器学习与数据挖掘同时被 3 个专栏收录

29 篇文章 1 订阅

订阅专栏

大数据技术

9 篇文章 0 订阅

订阅专栏

spark

7 篇文章 0 订阅

订阅专栏

此篇博文根据《Spark MLlib机器学习》实例程序编写，可作为熟悉scala和mllib编写机器学习算法的一种实践。
1、准备测试数据
可从作者博客自行下载。代码及数据下载地址
2、编写scala源码
为了进一步熟悉scala编程语言，建议自己把代码敲一次。

//import org.apache.log4j{ Level, Logger }
import org.apache.spark.{SparkConf,SparkContext}
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LinearRegressionModel

object LinearRegression{

  def main(args:Array[String]){

    val conf = new SparkConf().setAppName("LinearRegressionWithSGD")
    val sc =new SparkContext(conf)
  //  Logger.getRootLogger.setLevel(Level.WARN)

    val data_path1="file:///usr/spark2.0/data/mllib/mydata/lpsa.data"
    val data=sc.textFile(data_path1)
    val examples=data.map{line=>
     val parts=line.split(',')
     LabeledPoint(parts(0).toDouble,Vectors.dense(parts(1).split(' ').map(_.toDouble)))
    }.cache()

    val numExamples=examples.count()
    val numIterations=100
    val stepSize=1
    val miniBatchFraction=1.0
    val model=LinearRegressionWithSGD.train(examples,numIterations,stepSize,miniBatchFraction)
    val prediction=model.predict(examples.map(_.features))
    val predictionAndLabel=prediction.zip(examples.map(_.label))
    val print_predict=predictionAndLabel.take(50)
    println("prediction"+"\t"+"label")
    for (i <- 0 to print_predict.length-1 ){
       println(print_predict(i)._1 + "\t" + print_predict(i)._2)
    }
    val loss =predictionAndLabel.map{
        case(p,_)=>
            val err = p - 1
            err*err
    }.reduce(_+_)
    val rmse=math.sqrt(loss/numExamples)
    println(s"Test RMSE = $rmse.")

  }