2.3.0配置 spark_Spark2.1.0入门：Spark的安装和使用

最新推荐文章于 2022-01-09 17:39:58 发布

weixin_40008969

最新推荐文章于 2022-01-09 17:39:58 发布

阅读量269

点赞数

文章标签： 2.3.0配置 spark

本文链接：https://blog.csdn.net/weixin_40008969/article/details/111496751

版权

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！[返回Spark教程首页]Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装s...

摘要由CSDN通过智能技术生成

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频

[返回Spark教程首页]

Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装scala，因此，“Spark安装”这个部分的教程，假设读者的计算机上，没有安装Scala，也没有安装Java(当然了，如果已经安装Java和Scala，也没有关系，依然可以继续按照本教程进行安装)，也就是说，你的计算机目前只有Linux系统，其他的软件和环境都没有安装(没有Java，没有Scala，没有Hadoop，没有Spark)，需要从零开始安装所有大数据相关软件。下面，需要你在自己的Linux系统上(笔者采用的Linux系统是Ubuntu16.04)，首先安装Java和Hadoop，然后再安装Spark(Spark安装好以后，里面就默认包含了Scala解释器)。本教程的具体运行环境如下：

Ubuntu16.04以上

Hadoop 2.7.1以上

Java JDK 1.8以上

Spark 2.1.0

一、安装Hadoop

如果你的计算机上已经安装了Hadoop，本步骤可以略过。这里假设没有安装。如果没有安装Hadoop，请访问Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04,依照教程学习安装即可。注意，在这个Hadoop安装教程中，就包含了Java的安装，所以，按照这个教程，就可以完成JDK和Hadoop这二者的安装。

二、安装 Spark

在Linux系统中打开浏览器，访问Spark官方下载地址，按照如下图下载。

由于我们已经自己安装了Hadoop，所以，在“Choose a package type”后面需要选择“Pre-build with user-provided Hadoop [can use with most Hadoop distributions]”，然后，点击“Download Spark”后面的“spark-2.1.0-bin-without-hadoop.tgz”下载即可。下载的文件，默认会被浏览器保存在“/home/hadoop/下载”目录下。需要说明的是，Pre-build with user-provided Hadoop: 属于“Hadoop free”版，这样，下载到的Spark，可应用到任意Hadoop 版本。

Spark部署模式主要有四种：Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。

这里介绍Local模式(单机模式)的 Spark安装。我们选择Spark 2.1.0版本，并且假设当前使用用户名hadoop登录了Linux操作系统。

sudo tar -zxf ~/下载/spark-2.1.0-bin-without-hadoop.tgz -C /usr/local/

cd /usr/local

sudo mv ./spark-2.1.0-bin-without-hadoop/ ./spark

sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名

安装后，还需要修改Spark的配置文件spark-env.sh

cd /usr/local/spark

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件(vim ./conf/spark-env.sh)，在第一行添加以下配置信息:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

有了上面的配置信息以后，Spark就可以把数据存储到Hadoop分布式文件系统HDFS中，也可以从HDFS中读取数据。如果没有配置上面信息，Spark就只能读写本地数据，无法读写HDFS数据。

配置完成后就可以直接使用，不需要像Hadoop运行启动命令。

通过运行Spark自带的示例，验证Spark是否安装成功。

cd /usr/local/spark

bin/run-example SparkPi

执行时会输出非常多的运行信息，输出结果不容易找到，可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中，否则由于输出日志的性质，还是会输出到屏幕中):

bin/run-example SparkPi 2>&1 | grep "Pi is"

这里涉及到Linux Shell中管道的知识，详情可以参考Linux Shell中的管道命令

过滤后的运行结果如下图示，可以得到π 的 5 位小数近似值：

三、在 Spark Shell 中运行代码

学习Spark程序开发，建议首先通过spark-shell交互式学习，加深Spark程序开发的理解。

这里介绍Spark Shell 的基本使用。Spark shell 提供了简单的方式来学

最低0.47元/天解锁文章

weixin_40008969

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2.3.0配置 spark_Spark2.1.0入门：Spark的安装和使用

点击这里观看厦门大学林子雨老师主讲《大数据技术原理与应用》授课视频【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！[返回Spark教程首页]Spark可以独立安装使用，也可以和Hadoop一起安装使用。本教程中，我们采用和Hadoop一起安装使用，这样，就可以让Spark使用HDFS存取数据。需要说明的是，当安装好Spark以后，里面就自带了scala环境，不需要额外安装s...
复制链接

扫一扫