厦大-大数据教学教程-配置相关环境

最新推荐文章于 2022-11-30 12:00:00 发布

元辰辰辰辰辰辰

最新推荐文章于 2022-11-30 12:00:00 发布

阅读量161

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/qq_35301188/article/details/118087509

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第一步：

安装Linux 系统，参考下述链接，进行配置。

http://dblab.xmu.edu.cn/blog/install-hadoop/

在 Linux 系统中，~ 代表的是用户的主文件夹，即 “/home/用户名” 这个目录，如你的用户名为 hadoop，则 ~ 就代表 “/home/hadoop/”。此外，命令中的 # 后面的文字是注释，只需要输入前面命令即可。

此时再用 ssh localhost 命令，无需输入密码就可以直接登陆了

第二步：

http://dblab.xmu.edu.cn/blog/1307-2/

安装spark 可运行。

三、在 Spark Shell 中运行代码

学习Spark程序开发，建议首先通过spark-shell交互式学习，加深Spark程序开发的理解。
这里介绍Spark Shell 的基本使用。Spark shell 提供了简单的方式来学习 API，并且提供了交互的方式来分析数据。你可以输入一条语句，Spark shell会立即执行语句并返回结果，这就是我们所说的REPL（Read-Eval-Print Loop，交互式解释器），为我们提供了交互式执行环境，表达式计算完成就会输出结果，而不必等到整个程序运行完毕，因此可即时查看中间结果，并对程序进行修改，这样可以在很大程度上提升开发效率。
Spark Shell 支持 Scala 和 Python，这里使用 Scala 来进行介绍。

前面已经安装了Hadoop和Spark，如果Spark不使用HDFS和YARN，那么就不用启动Hadoop也可以正常使用Spark。如果在使用Spark的过程中需要用到 HDFS，就要首先启动 Hadoop（启动Hadoop的方法可以参考上面给出的Hadoop安装教程）。
这里假设不需要用到HDFS，因此，就没有启动Hadoop。现在我们直接开始使用Spark。
spark-shell命令及其常用的参数如下：

./bin/spark-shell --master <master-url>

Spark的运行模式取决于传递给SparkContext的Master URL的值。Master URL可以是以下任一种形式：
* local 使用一个Worker线程本地化运行SPARK(完全不并行)
* local[*] 使用逻辑CPU个数数量的线程来本地化运行Spark
* local[K] 使用K个Worker线程本地化运行Spark（理想情况下，K应该根据运行机器的CPU核数设定）
* spark://HOST:PORT 连接到指定的Spark standalone master。默认端口是7077.
* yarn-client 以客户端模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR 环境变量中找到。
* yarn-cluster 以集群模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR 环境变量中找到。
* mesos://HOST:PORT 连接到指定的Mesos集群。默认接口是5050。

需要强调的是，这里我们采用“本地模式”（local）运行Spark，关于如何在集群模式下运行Spark，可以参考后面的“在集群上运行Spark应用程序”。
在Spark中采用本地模式启动Spark Shell的命令主要包含以下参数：
–master：这个参数表示当前的Spark Shell要连接到哪个master，如果是local[*]，就是使用本地模式启动spark-shell，其中，中括号内的星号表示需要使用几个CPU核心(core)；
–jars：这个参数用于把相关的JAR包添加到CLASSPATH中；如果有多个jar包，可以使用逗号分隔符连接它们；

比如，要采用本地模式，在4个CPU核心上运行spark-shell：

cd /usr/local/spark
./bin/spark-shell --master local[4]

Shell 命令

或者，可以在CLASSPATH中添加code.jar，命令如下：

cd /usr/local/spark
./bin/spark-shell --master local[4] --jars code.jar

Shell 命令

可以执行“spark-shell –help”命令，获取完整的选项列表，具体如下：

cd /usr/local/spark
./bin/spark-shell --help

Shell 命令

上面是命令使用方法介绍，下面正式使用命令进入spark-shell环境，可以通过下面命令启动spark-shell环境：

bin/spark-shell

Shell 命令

该命令省略了参数，这时，系统默认是“bin/spark-shell –master local[*]”，也就是说，是采用本地模式运行，并且使用本地所有的CPU核心。

启动spark-shell后，就会进入“scala>”命令提示符状态,如下图所示：

现在，你就可以在里面输入scala代码进行调试了。

比如，下面在命令提示符后面输入一个表达式“8 * 2 + 5”，然后回车，就会立即得到结果：

scala> 8*2+5
res0: Int = 21

scala

最后，可以使用命令“:quit”退出Spark Shell，如下所示：

scala>:quit

scala

或者，也可以直接使用“Ctrl+D”组合键，退出Spark Shell。

元辰辰辰辰辰辰

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录