文章目录
1.概述
2.安装
3.配置系统变量
4.进入spark shell
1.概述
spark官方http://spark.apache.org
spark是一个围绕速度,易用性和复杂分析架构的大数据处理框架;
他有如下优势:
运行速度快。spark是基于内存的,是hadoop的是100倍;
易用性。可以使用java,scala,python或者其他语言来写;
mapReduce,还支持sql查询,流数据,机器学习和图计算;
spark不仅仅可以处理hdfs上的数据,还可以处理其他数据。
三台虚拟机
hadoop01 主节点
hadoop02 从节点
hadoop03 从节点
2.安装
首先需要scala和spark的两个压缩包:
解压scala
tar -xvf scala-2.12.11.tgz
解压spark
tar -xvf spark-2.2.0-bin-hadoop2.7.tgz
如果解压到指定目录 在 后面加上 -C /路径
3.配置系统变量
编辑系统配置文件
vim /etc/profile
#jdk
export JAVA_HOME=/home/java/jdk1.8.0_251
export CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib
export PATH=$JAVA_HOME/bin:$PATH
#zookeeper
export ZOOKEEPER_HOME=/home/zk/zookeeper
export PATH=$ZOOKEEPER_HOME/bin:$PATH
#hadoop
export HADOOP_HOME=