1.安装spark
官网 http://spark.apache.org/downloads.html
考虑到spark之后要结合hadoop一起使用,所以下载和已经安装hadoop版本均兼容的spark
(首先安装好hadoop
选择伪分布式配置(因为我是单机运行,有集群的朋友查看集群环境搭建的方法。)
```)
![这里写图片描述](https://img-blog.csdn.net/2018071820100571?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0hhbmRva2luZw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)
第一项选择默认的,第二项选择Pre-build with user-provided Hadoop,点击第三项链接下载。
<div class="se-preview-section-delimiter"></div>
sudo tar -zxf ~/Downloads/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/ #解压
cd /usr/local
sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark #改名,之后运行方便。
sudo chown -R hadoop:hadoop ./spark #hadoop为我的用户名,修改所属权限
**修改配置文件:**
编辑spark-env.sh.template,编辑前先拷贝一份命名为spark-env.sh
<div class="se-preview-section-delimiter"></div>
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
sudo gedit ./conf/spark-env.sh
加上以下信息:
<div class="se-preview-section-delimiter"></div>
export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)#hadoop安装路径以自己的为准
这样Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。
**修改环境变量:**
<div class="se-preview-section-delimiter"></div>
sudo gedit ~/.bashrc
添加以下信息:
export JAVA_HOME=/usr/lib/jvm/default-java #java环境路径
export HADOOP_HOME=/usr/local/hadoop #hadoop安装路径
export SPARK_HOME=/usr/local/spark #spark安装路径
export PYTHONPATH=
SPARKHOME/python:
S
P
A
R
K
H
O
M
E
/
p
y
t
h
o
n
:
SPARK_HOME/python/lib/py4j-0.10.9-src.zip:PYTHONPATH #py4j是pyspark必需的包,py4j的版本号以自己的为准
export PYSPARK_PYTHON=python3 #pyspark为python提供的spark的交互环境
export PATH=
PYTHONPATH #py4j是pyspark必需的包,py4j的版本号以自己的为准 export PYSPARK_PYTHON=python3 #pyspark为python提供的spark的交互环境 export PATH=
HADOOP_HOME/bin:
SPARKHOME/bin:
S
P
A
R
K
H
O
M
E
/
b
i
n
:
PATH
运行以下信息使环境变量立即生效:
<div class="se-preview-section-delimiter"></div>
source ~/.bashrc
“`
终端输入pyspark即可运行pyspark