Ubuntu Spark 环境搭建

在安装Spark之前,我们需要在自己的系统当中先安装上jdk和scala
可以去相应的官网上下载:
JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
scala:http://www.scala-lang.org/download/
下载完成后可以得到这样两个压缩包
这里写图片描述

安装JDK

首先我们先来安装jdk,

sudo mkdir /usr/lib/jdk

用这条语句来创建jdk的安装目录,这里我们计划装到/usr/lib/jdk目录下,
然后切换到jdk压缩包所在的目录,比如这里我们把包放在了~/Desktop目录下

cd ~/Desktop

执行解压缩命令,把压缩包解压缩到/usr/lib/jdk目录下

sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk

注意这里需要root权限。不然没有办法往/usr/lib/jdk目录中写数据
然后我们需要配置PATH路径,让jdk命令在任何路径下都能够直接执行

sudo vim /etc/profile

打开配置文件,有些教程会让你编辑自己目录下的~/.bashrc文件,.bashrc文件的改动只会对当前用户产生作用,而/etc/profile的改动在重启之后会对所有用户都起作用
在配置文件的最后加上

export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91   
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

JAVA_HOME的路径根据自己解压缩的目录来配置。
然后推出vim,如果你不会用vim,可以在所有命令中出现vim的地方用gedit来代替,下面也是一样。

source /etc/profile

当前终端重新载入/etc/profile配置文件,然后执行一下

java

如果出现一大串东西,那么恭喜你你的jdk安装成功了,否则很有可能你的环境配置出了问题,请仔细检查。

安装scala

接着我们需要安装scala具体的安装过程和jdk很像,
首先也是创建安装目录

sudo mkdir /usr/lib/scala

然后是将压缩包解压缩

sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala

最后打开/etc/profile,在最后添加配置

export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH

退出后,进行source /etc/profile
然后执行scala,出现如下界面说明安装成功
这里写图片描述
可以在这里输入
:quit
退出scala

安装spark

安装完了上面这些之后我们需要安装今天的主角Spark了,首先去官网下载我们需要的包
http://spark.apache.org/downloads.html
这个是它的下载地址,需要注意的是,我们在Choose a package type:这里选择的是Pre-Build for Hadoop2.6
这里写图片描述
然后点击下面的Download Spark链接开始下载。
完成后这里写图片描述会出现这个文件
同样我们需要给spark一个安装目录

sudo mkdir /usr/lib/spark

解压缩文件

sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/lib/spark

在/etc/profile中配置

export SPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH

source /etc/profile
之后,执行
pyspark

这里写图片描述

出现这个就说明安装已经完成,你可以在这里输入相应的python代码来执行操作。

python中使用pyspark

当然了,我们在之后的开发过程中,不可能说只在这么一个解释器中开发,所以接下来我们要做的是让python能够加载spark的库。

所以我们需要把pyspark添加到python的寻找目录当中,同样我们需要编辑/etc/profile文件,在最后添上

export PYTHONPATH=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python:/usr/bin/python

这样就把spark目录下的python库添加到了python的找寻目录中

但是由于python需要去调用java的库所以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python路径下我们需要添加一个py4j的文件夹,这个文件可以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/lib目录下找到,在这个目录下有一个py4j-0.9-src.zip的压缩包,把他解压缩放到
/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/目录下就可以了
这里写图片描述

当然这个操作需要在root权限下进行

这个时候在任意目录下输入python
这里写图片描述
然后在这里输入

import pyspark

查看是否可以正确导入pyspark,如果没有出现任何提示,就说明pyspark能够正常导入。

这样就可以在任何地方编写.py文件,需要用到pyspark的地方用import导入即可。

pycharm导入pyspark

当然有些用户喜欢用pycharm来编写python,所以对于pycharm使用pyspark也做一下说明

首先我们需要点击右上角的下拉框,选择 Edit Configurations…
这里写图片描述

然后在弹出的对话框中,点击Enviroment variables:右侧的编辑按钮
这里写图片描述

点击加号添加两条新的数据,
PYTHONPATH和
SPARK_HOME
数据内容和/etc/profile中对应的内容相同
这里写图片描述
然后用下述代码测试

import pyspark

conf = pyspark.SparkConf().setAppName("sparkDemo").setMaster("local")
sc = pyspark.SparkContext(conf=conf)

出现这里写图片描述
说明pycharm也能够正常载入pyspark了。

  • 32
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
Ubuntu 20.04是一种流行的Linux操作系统,下面是搭建Ubuntu 20.04环境的步骤: 1. 下载Ubuntu 20.04 ISO镜像文件:你可以从Ubuntu官方网站下载最新的Ubuntu 20.04 ISO镜像文件。 2. 创建启动盘:将下载的ISO镜像文件写入USB闪存驱动器或者光盘,创建一个可启动的Ubuntu安装介质。 3. 安装Ubuntu 20.04:将启动盘插入计算机,并重启计算机。在启动过程中,选择从USB或光盘启动。进入安装界面后,按照提示进行安装。你可以选择安装Ubuntu作为独立操作系统,或者与其他操作系统双重引导。 4. 更新系统:安装完成后,打开终端(Ctrl+Alt+T),运行以下命令更新系统: ``` sudo apt update sudo apt upgrade ``` 5. 安装常用软件:根据你的需求,可以安装一些常用软件,比如文本编辑器、浏览器、开发工具等。你可以使用以下命令来安装软件: ``` sudo apt install 软件包名称 ``` 6. 配置开发环境:如果你是开发人员,你可能需要安装和配置特定的开发环境,比如Python、Java、Node.js等。你可以通过搜索引擎查找相应的教程来完成配置。 7. 安装其他软件:根据你的需求,你可能需要安装其他软件,比如图形界面工具、媒体播放器等。你可以使用Ubuntu软件中心或者命令行来安装这些软件。 8. 配置系统设置:根据个人喜好,你可以配置系统设置,比如桌面背景、主题、语言等。你可以在“设置”应用程序中找到这些选项。 希望以上步骤对你有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值