import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.regression.LinearRegression object Driver01 { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("local").setAppName("lr") val sc=new SparkContext(conf) val sqc=new SQLContext(sc)//创建sparksql上下文对象,用于创建或转化DataFrame val data=sc.textFile("D://bigdata/data/ml/lritem.txt") val r1=data.map{x=> val info=x.split("\\|") val y=info(0).toDouble val x1=info(1).split(" ")(0).toDouble val x2=info(1).split(" ")(1).toDouble (x1,x2,y) } //为了满足建模需求,RDD[(x1,x2,y)]->DataFrame(x1,x2,y) 数据表模型 //RDD转化成DataFrame的需求:1)RDD中每个元素必须是元组类型 2)DataFrame的列的个数以及顺序要和元组一致 val df1=sqc.
建立多元线性回归模型,进行预测
于 2022-05-13 19:27:00 首次发布
本文详细介绍了如何利用Spark的MLlib库构建多元线性回归模型,并应用于实际数据预测。首先,我们导入数据并进行预处理,接着设置模型参数,训练模型。最后,我们评估模型的性能,并展示其在测试集上的预测结果。
摘要由CSDN通过智能技术生成