大数据篇:Spark安装及测试PI的值

本文运行的具体环境如下:

  • centos7.3
  • Hadoop 2.8.4
  • Java JDK 1.8
  • Spark 1.6.3

一、安装Hadoop

关于Hadoop的安装,这里就不概述了!

二、安装 Spark

下载网址http://archive.apache.org/dist/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz,下载速度比较慢,建议迅雷下载,速度会提升许多。

Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。
这里介绍Local模式(单机模式)的 Spark安装。

运用winscp将spark-1.6.3-bin-hadoop2.6.tgz上传到master服务器主节点端的/usr/local下,解压

sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz
cd /usr/local
sudo chown -R hadoop:hadoop ./spark       #此处的hadoop为你的用户名

安装后,还需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark-1.6.3-bin-hadoop2.6
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)

有了上面的配置信息以后,Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据。如果没有配置上面信息,Spark就只能读写本地数据,无法读写HDFS数据。配置完成后就可以直接使用,不需要像Hadoop运行启动命令。通过运行Spark自带的示例,验证Spark是否安装成功。

cd /usr/local/spark-1.6.3-bin-hadoop2.6
bin/run-example SparkPi

执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中)

bin/run-example SparkPi 2>&1 | grep "Pi is"

过滤后的运行结果如下图示,可以得到π 的 近似值:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值