大数据篇：Spark安装及测试PI的值

最新推荐文章于 2024-04-30 00:20:59 发布

yunxiaoMr

最新推荐文章于 2024-04-30 00:20:59 发布

阅读量2.3k

点赞数

分类专栏： Big Data

本文链接：https://blog.csdn.net/weixin_41297324/article/details/83663377

版权

Big Data 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

本文运行的具体环境如下：

centos7.3
Hadoop 2.8.4
Java JDK 1.8
Spark 1.6.3

一、安装Hadoop

关于Hadoop的安装，这里就不概述了！

二、安装 Spark

下载网址http://archive.apache.org/dist/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz，下载速度比较慢，建议迅雷下载，速度会提升许多。

Spark部署模式主要有四种：Local模式（单机模式）、Standalone模式（使用Spark自带的简单集群管理器）、YARN模式（使用YARN作为集群管理器）和Mesos模式（使用Mesos作为集群管理器）。
这里介绍Local模式（单机模式）的 Spark安装。

运用winscp将spark-1.6.3-bin-hadoop2.6.tgz上传到master服务器主节点端的/usr/local下，解压

sudo tar -zxf spark-1.6.3-bin-hadoop2.6.tgz
cd /usr/local
sudo chown -R hadoop:hadoop ./spark       #此处的hadoop为你的用户名

安装后，还需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark-1.6.3-bin-hadoop2.6
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop-2.8.4/bin/hadoop classpath)

有了上面的配置信息以后，Spark就可以把数据存储到Hadoop分布式文件系统HDFS中，也可以从HDFS中读取数据。如果没有配置上面信息，Spark就只能读写本地数据，无法读写HDFS数据。配置完成后就可以直接使用，不需要像Hadoop运行启动命令。通过运行Spark自带的示例，验证Spark是否安装成功。

cd /usr/local/spark-1.6.3-bin-hadoop2.6
bin/run-example SparkPi

执行时会输出非常多的运行信息，输出结果不容易找到，可以通过 grep 命令进行过滤（命令中的 2>&1 可以将所有的信息都输出到 stdout 中，否则由于输出日志的性质，还是会输出到屏幕中）

bin/run-example SparkPi 2>&1 | grep "Pi is"

过滤后的运行结果如下图示，可以得到π 的近似值：

yunxiaoMr

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录