建立多元线性回归模型，进行预测

mumuwzj

已于 2022-05-13 19:28:05 修改

阅读量1.9k

点赞数 1

分类专栏： spark 文章标签：线性回归 spark 机器学习

于 2022-05-13 19:27:00 首次发布

本文链接：https://blog.csdn.net/mumuwzj/article/details/124758385

版权

本文详细介绍了如何利用Spark的MLlib库构建多元线性回归模型，并应用于实际数据预测。首先，我们导入数据并进行预处理，接着设置模型参数，训练模型。最后，我们评估模型的性能，并展示其在测试集上的预测结果。

摘要由CSDN通过智能技术生成

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.regression.LinearRegression
object Driver01 {
  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("lr")

    val sc=new SparkContext(conf)

    val sqc=new SQLContext(sc)//创建sparksql上下文对象，用于创建或转化DataFrame

    val data=sc.textFile("D://bigdata/data/ml/lritem.txt")

    val r1=data.map{x=>
      val info=x.split("\\|")
      val y=info(0).toDouble
      val x1=info(1).split(" ")(0).toDouble
      val x2=info(1).split(" ")(1).toDouble
      (x1,x2,y)
    }

    //为了满足建模需求，RDD[(x1,x2,y)]->DataFrame(x1,x2,y) 数据表模型
    //RDD转化成DataFrame的需求:1)RDD中每个元素必须是元组类型 2)DataFrame的列的个数以及顺序要和元组一致
    val df1=sqc.