房屋普查,预测房价,最后预测结果不太准确,后续会调整,可能的原因:最直接原因指标项没有强线性关系,使用的参数不准确。只是为了熟悉下流程。
import org.apache.spark.ml.feature.StandardScaler
import org.apache.spark.sql.types.{DoubleType, FloatType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.regression.LinearRegression
/**
*
* 数据集 http://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html
* 房屋普查,预测房价
* 数据集中的每个数据都代表一块区域内房屋和人口基本信息
* 1.该地区中心的纬度(latitude)
* 2.该地区中心的经度(longitude)
* 3.区域内所有房屋屋龄的中位数(housingMedianAge&