参考:
spark+python+ubuntu环境配置:
https://blog.csdn.net/konglingshneg/article/details/82491157
Building A Linear Regression with PySpark and MLlib:
https://towardsdatascience.com/building-a-linear-regression-with-pyspark-and-mllib-d065c3ba246a
目录
1.Ubuntu16.04+Spark+Python环境配置
2.利用Linear Regression预测Boston房价
1.Ubuntu16.04+Spark+Python环境配置
Spark是一个可以应用于大规模数据处理的快速通用引擎。是当今大数据领域最热门的大数据计算平台。Spark开发应用程序时可以采用Scala、Python、Java和R语言。在虚拟机下的Ubuntu环境下安装测试Spark,即使出错也不会影响其他。
安装JDK1.8:
Spark的运行环境依赖JVM环境,
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
下载jdk-8u191-linux-x64.tar.gz
(1)在/usr/lib下新建一个文件夹 sudo mkdir /usr/lib/jdk
zhb@ubuntu:~$ sudo mkdir /usr/lib/jdk
(2)系统默认下载到download文件夹(找到copy一下地址),cd 到下载文件文件夹
zhb@ubuntu:~$ cd /home/zhb/Downloads/
zhb@ubuntu:~/Downloads$
(3)解压缩到我们新建的文件夹 sudo tar -zxvf jdk-8u191-linux-x64.tar.gz -C /usr/lib/jdk
zhb@ubuntu:~/Downloads$ sudo tar -zxvf jdk-8u191-linux-x64.tar.gz -C /usr/lib/jdk
(4)配置PATH路径,让jdk命令在任何路径下都能够直接执行, gedit、vi都可以。 sudo gedit /etc/profile
zhb@ubuntu:~$ gedit /etc/proflie
在配置文件末尾追加
# java
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_191
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
(5)重新载入/etc/profile配置文件 source /etc/proflie
zhb@ubuntu:~$ source /etc/profile
(6)运行java -version查看java是否安装成功,出现如下结果说明安装成功
zhb@ubuntu:~$ java -version
java version "1.8.0_191"
Java(TM) SE Runtime Environment (build 1.8.0_191-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mixed mode)
zhb@ubuntu:~$