Spark概述和部署

平平无奇程序猿

已于 2023-05-04 18:35:38 修改

阅读量274

点赞数

分类专栏：大数据相关——Spark 文章标签： spark 大数据分布式

于 2023-04-23 16:59:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_48777037/article/details/130318281

版权

大数据相关——Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

1 什么是Spark

2 Spark的内置模块

3 Spark的特点

二运行模式

一概述

1 什么是Spark

Spark是一个基于内存的，快速通用可拓展的大数据数据分析计算引擎。

2 Spark的内置模块

Spark Core：基本功能包含任务调度、内存管理、错误恢复、与存储系统交互等模块。此外还有RDD的API定义。

Spark SQL：用来操作结构化数据的程序包，支持多个数据源，比如Hive表、Parquet以及JSON等。

Spark Sreaming：Spark提供的对实时数据进行流式计算的组件，与Spark Core中的 RDD API高度对应。

Spark MLlib：常见的机器学习功能的程序库，包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。

Spark GraphX：用于图形并行计算和图挖掘系统的组件。

集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了提高灵活性，Spark自带的一个简易调度器，叫作独立调度器。

3 Spark的特点

快：和MR相比快很多，任务越多差距越大。

易用：支持多种语言。

通用：内置的模块丰富，多个处理可无缝使用。

兼容性：可与其他产品很好的配合。

二运行模式

（我用的是CentOS 7，VMWare，三台机器）大致分为两种模式：单机模式，集群模式

1 Local模式

运行在一台计算机上的模式

（1）上传并解压Spark安装包，自己想在哪台机器上都行。

[sorfware]$ tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/

[module]$ mv spark-3.3.1-bin-hadoop3 spark-local

可以了安装好了

（2）来个运行PI案例

[hadoop102 spark-local]$ bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[2] \

./examples/jars/spark-examples_2.12-3.3.1.jar \

10

可以查看spark-submit所有参数：

[hadoop102 spark-local]$ bin/spark-submit

2 Yarn模式

（1）停止Standalone模式下的spark集群

[@hadoop102 spark-standalone]$ sbin/stop-all.sh

[@hadoop102 spark-standalone]$ zk.sh stop

[@hadoop103 spark-standalone]$ sbin/stop-master.sh

（2）再解压一份spark，和上面区分开

[@hadoop102 software]$ tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/

[@hadoop102 module]$ mv spark-3.3.1-bin-hadoop3/ spark-yarn

（3）配置hadoop yarn-site-sh文件，/opt/module/hadoop/etc/hadoop/yarn-site.xml

因为测试环境虚拟机内存较小，防止被意外杀死

<property>

<name>yarn.nodemanager.pmem-check-enabled</name>

<value>false</value>

</property>

<property>

<name>yarn.nodemanager.vmem-check-enabled</name>

<value>false</value>

</property>

（4）分发配置文件

（5）修改/opt/module/spark-yarn/conf/spark-env.sYARN_CONF_DIR配置。

[@hadoop102 conf]$ mv spark-env.sh.template spark-env.sh

[@hadoop102 conf]$ vim spark-env.sh

YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop

（6）修改spark-default.conf 配置历史服务

[@hadoop102 conf]$ mv spark-defaults.conf.template spark-defaults.conf

[@hadoop102 conf]$ vim spark-defaults.conf

加入

spark.eventLog.enabled true

spark.eventLog.dir hdfs://hadoop102:8020/directory

（7）修改spark-env.sh文件

[@hadoop102 conf]$ vim spark-env.sh

export SPARK_HISTORY_OPTS="

-Dspark.history.ui.port=18080

-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory

-Dspark.history.retainedApplications=30"

（8）配置查看历史日志

修改配置文件/opt/module/spark-yarn/conf/spark-defaults.conf

添加如下内容：

spark.yarn.historyServer.address=hadoop102:18080

spark.history.ui.port=18080

重启Spark历史服务

[@hadoop102 spark-yarn]$ sbin/stop-history-server.sh

[@hadoop102 spark-yarn]$ sbin/start-history-server.sh

平平无奇程序猿

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。