大数据技术之Spark ——（一）Spark运行模式（local+standalone+yarn）

最新推荐文章于 2024-07-31 13:16:03 发布

「已注销」

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量1k

点赞数 1

分类专栏： Spark 文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/m0_46615073/article/details/119902765

版权

本文详细介绍了Spark的三种运行模式：local模式、Standalone独立部署模式和Yarn模式。包括每个模式的启动、配置和应用提交过程，特别强调了在不同模式下的资源调度和集群管理。对于初学者和开发者来说，是理解Spark运行环境的良好教程。

摘要由CSDN通过智能技术生成

文章目录

1.2.3、命令行工具 (wordcount小测试)

1.2.4、提交应用

1.3、Standalone（独立部署模式）

前言

本篇文章涉及到spark的几种部署模式，需要涉及hadoop集群、如果还没有搭建hadoop集群的兄弟们可以先去搭建hadoop集群 hadoop完全分布式集群搭建以及一些脚本的编写

虚拟机情况：hadoop02 hadoop03 hadoop04三台作为部署机器

spark版本：spark-3.0.0-bin-hadoop3.2.tgz （注意spark版本后hadoop版本要和自己的hadoop集群版本对应）

一、Spark运行环境

1.1、spark运行环境概述

先贴个官网介绍截图：

Spark 可以在 Hadoop、Apache Mesos、Kubernetes、独立或云端运行。它可以访问不同的数据源。

可以在EC2、Hadoop YARN、Mesos或Kubernetes上使用其独立集群模式运行 Spark 。访问HDFS、 Alluxio、 Apache Cassandra、 Apache HBase、 Apache Hive和数百个其他数据源中的数据。

Spark 作为一个数据处理框架和计算引擎，被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn，不过逐渐容器式环境也慢慢流行起来。接下来我们就学习在不同的运行环境下如何部署Spark

1.2、local模式

所谓的 Local 模式，就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境，一般用于教学，调试，演示等

1.2.1、上传spark压缩文件并解压

解压改名

#解压
tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

#改名
mv spark-3.0.0-bin-hadoop3.2.tgz spark-local

1.2.2、启动local环境

【1】进入解压后的spark目录，执行 cd /opt/module/spark-local

bin/spark-shell

【2】启动成功后，在web端查看 http://hadoop02:4040

【3】run 一个官方实例

bin/run-example SparkPi 10

【3】退出本地模式

ctrl+c 或者输入 :quit

1.2.3、命令行工具 (wordcount小测试)

使用spark实现wordcount

准备数据

在spark-local/data目录下新建word.txt文件填入数据

 hello spark
 hello spark
 hello flink flink
 hadoop

开启本地模式执行命令

sc.textFile("file:opt/module/spark-local/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
大数据技术之Spark ——（一）Spark运行模式（local+standalone+yarn）

文章目录前言一、Spark运行环境1.1、spark运行环境概述1.2、local模式1.2.1、上传spark压缩文件并解压1.2.2、启动local环境1.2.3、命令行工具 (wordcount小测试)1.2.4、提交应用1.3、Standalone（独立部署模式）1.3.1、解压缩文件1.3.2、修改配置文件1.3.3、启动集群1.3.4、配置历史服务器1.4、yarn模式1.4.2、修改配置文件1.4.3、启动HDFS和YARN1
复制链接

扫一扫

专栏目录