pyspark 中算法和模型的运用
LogisticRegression和LogisticRegressionModel的区别
LogisticRegression用于引入平台的逻辑回归模型,在建模时需要设置对应的参数值,在模型训练好后,可以利用save(modelPath) 对训练好的模型进行保存,tips(在保存模型时,需要确保保存的路径下没有改名称的文件,如果之前就有导出,则需要删除或者用overwrite()函数进行写入操作)。
在需要导入训练好的本地模型时,需要新引入LogisticRegressionModel,然后调用LogisticRegressionModel.load(modelPath)完成对模型的导入操作,之后并可以进行对应的预测及其他操作了。
样例数据如下表所示
label | features |
---|---|
1 | [25.0,20.87,4.69,11.47,4.94,6.76,1.37,558.28,312.38,1.25,1.28,3.84,0.42,2.46,1.26] |
1 | [27.0,22.82,4.4,9.73,4.63,3.51,0.76,213.44,142.35,1.24,0.78,4.43,0.34,3.61,2.02] |
1 | [26.0,18.63,4.962711864406779,7.62,5.88,10.1,1.72,339.75,583.83,0.74,0.6,3.7,0.93,2.14,1.06] |
1 | [28.0,23.93,4.78,6.52,5.61,4.87,0.87,189.31,332.62,1.16,0.8 |