1.实验目的
了解与认识线性回归模型、逻辑回归模型、决策树模型、随机森林模型、神经网络模型以及协同过滤推荐模型。
2.实验内容及结果截屏
(1)Spark有监督学习
载入本章需要用到的程序包:
调用spark的函数read()载入波士顿房价数据集boston:
调用程序包pyspark.ml.feature中的构造函数VectorAssembler()创建向量封装器;调用向量封装器的函数transform()做向量封装:
只保留预测变量和目标变量,并将目标变量重命名为label:
调用spark的函数read()载入双螺旋结构数据spirals:
调用程序包pyspark.ml.feature中的构造函数VectorAssembler()创建向量封装器;调用向量封装器的函数transform()做向量封装:
调用程序包pyspark.ml.feature中的构造函数StringIndexer()创建类别编码器;调用类别编码器的函数fit()和transform()做类别编码:
只保留预测变量和目标变量:
调用spark的函数read()载入鸢尾花卉数据集iris: