Spark学习笔记(1) - Spark运行模式以及模块介绍 ⭐️⭐️⭐️

最新推荐文章于 2022-02-06 09:38:18 发布

兀坐晴窗独饮茶

最新推荐文章于 2022-02-06 09:38:18 发布

阅读量228

点赞数

分类专栏：批处理框架大数据专栏文章标签： Spark Spark概述

本文链接：https://blog.csdn.net/weixin_40040107/article/details/97613375

版权

大数据专栏同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

批处理框架

28 篇文章 0 订阅

订阅专栏

第一章 - Spark概述

Read Me ⭐️

📖 Code : 本章节代码实现
🏠 CSDN : wangt的博客
☁️ Github : https://github.com/lovewangtzq
❤️ 微信公众号 : 大数据初学者
🍻 b站: 我学不会Spark

Spark 模块介绍

1️⃣ Spark Core

实现了 Spark 的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset，简称RDD)的 API 定义。
2️⃣ Spark SQL

是 Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源，比如 Hive 表、Parquet 以及 JSON 等。
3️⃣ Spark Streaming

是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API，并且与 Spark Core 中的 RDD API 高度对应。
4️⃣ Spark MLlib

提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
⭐️集群管理器

Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark 支持在各种集群管理器(cluster manager)上运行，包括 Hadoop YARN、Apache Mesos，以及 Spark 自带的一个简易调度器，叫作独立调度器(Standalone)。

Spark 特点

🚗 快

与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。计算的中间结果是存在于内存中的。Spark是基于内存计算而Hadoop是基于磁盘计算
🏠 易用

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
📖 通用

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。
🐱 兼容性

Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。

Spark 角色介绍以及运行模式

角色介绍
1. Master : 主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态
2. Worker : 负责具体的业务运行
3. 从Spark程序运行的层面来看，Spark主要分为驱动器节点和执行器节点。
⭐️ 运行模式
1. Local 模式 :Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。它可以通过以下集中方式设置master。
  - local: 所有计算都运行在一个线程当中，没有任何并行计算，通常我们在本机执行一些测试代码，或者练手，就用这种模式;
  - local[K]: 指定使用几个线程来运行计算，比如local[4]就是运行4个worker线程。通常我们的cpu有几个core，就指定几个线程，最大化利用cpu的计算能力;
  - local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。
2. Standalone 模式: 构建一个由Master+Slave构成的Spark集群，Spark运行在集群中。集群中的资源调度主要由Spark内置的资源管理器standalone进行
3. Yarn 模式: Spark客户端直接连接Yarn；不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式，主要区别在于：Driver程序的运行节点
  - 1️⃣ yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看到app的输出
  - 2️⃣ yarn-cluster：Driver程序运行在由RM（ResourceManager）启动的AP（APPMaster）适用于生产环境
4. Mesos 模式: Spark 客户端直接连接Mesos 不需要额外构建Spark集群。国内应用比较少，更多的是运用yarn调度。