使用评估器构建模型
在建立了 VectorAssembler 【向量装配器】之后,我们就将我们的数据,转换成了线性回归模型所期望的格式。
在Spark中,线性回归 LinerRegression 是一种 Estimators 评估器 – 它接受数据帧 DataFrame 作为输入并返回模型Model 作为输出。
Estimators 评估器从您的数据中学习参数,并且有一个estimator_name的.fit()方法,并被直接运行(即启动Spark作业),而转换器 Transformers 则会被懒加载。
Estimators 评估器的其他一些例子包括Imputer、决策树分类器 DecisionTreeClassifier 和随机森林评估器 RandomForestRegressor。
您会注意到,我们的线性回归(特征)输入列是我们的 VectorAssembler 【向量装配器】 的输出
from pyspark.ml