spark本身不存储数据,数据的存储和读取依赖的HDFS,因此开始可以先安装HDFS;
下载spark和scala的安装压缩文件:
tar -zxvf spark-2.1.0-bin-hadoop2.4.tgz -C app
tar -zxvf scala-2.10.6.tgz -C app
修改配置文件:/etc/profile
SCALA_HOME=/home/hadoop/app/scala-2.10.6
SPARK_HOME=/home/hadoop/app/spark-2.1.0-bin-hadoop2.4
PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin:$SPARK_HOME/sbin
修改配置文件:/home/hadoop/app/spark-2.1.0-bin-hadoop2.4/conf
1.修改文件名:mv spark-env.sh.template spark-env.sh
设置配置项:vi spark-env.sh
JAVA_HOME=/home/hadoop/app/jdk1.7.0_80/
SCALA_HOME=/home/hadoop/app/scala-2.10.6/
#加了HADOOP_CONF_DIR,那么在spark中将使用的是hdfs的存储文件
HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.4.1/etc/hadoop/
SPARK_MASTER_HOST=hadoop08
SPARK_MASTER_PORT=7077
SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=2000m
SPARK_WORKER_PORT=7078
SPARK_WORKER_WEBUI_PORT=8081
SPARK_WORKER_INSTANCES=1
2.修改文件名:mv slaves.template slaves
修改配置:vi slaves
修改localhost为主机名hadoop08
3.修改文件名:mv spark-defaults.conf.template spark-defaults.conf
修改配置:vi spark-defaults.conf
新增spark.master spark://hadoop08:7077
4.启动/关闭:
a) 启动/关闭master
start-master.sh / stop-master.sh
b)启动/关闭worker
start-slaves.sh / stop-slaves.sh
官网中的提供了quick-start
http://spark.apache.org/docs/latest/quick-start.html
启动spark-shell
[hadoop@hadoop08 conf]$ spark-shell
#这里访问的hdfs中的文件路径
scala> val textFile = sc.textFile("/sparkInput/README.md")
scala>textFile count
scala>textFile first
scala>textFile take 5