数据研发学习笔记4.8：大数据之Spark

最新推荐文章于 2021-11-19 07:00:00 发布

Lynn Wen

最新推荐文章于 2021-11-19 07:00:00 发布

阅读量790

点赞数 1

分类专栏：数据研发学习笔记文章标签：分布式编程语言大数据数据库 spark

本文链接：https://blog.csdn.net/weixin_41961559/article/details/106174202

版权

1 Spark概述

Spark最初由美国加州伯克利大学（UCBerkeley）的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

2013年Spark加入Apache孵化器项目后发展迅猛，如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一（Hadoop、Spark、Storm）。

Spark在2014年打破了Hadoop保持的基准排序纪录：

Spark具有如下几个主要特点：

运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

Spark如今已吸引了国内外各大公司的注意，如腾讯、淘宝、百度、亚马逊等公司均不同程度地使用了Spark来构建大数据分析应用，并应用到实际的生产环境中。

Scala是一门现代的多范式编程语言，运行于Java平台（JVM，Java 虚拟机），并兼容现有的Java程序。

Scala的特性：

Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言
Scala的优势是提供了REPL（Read-Eval-Print Loop，交互式解释器），提高程序开发效率。

Hadoop存在如下一些缺点：

Spark在借鉴Hadoop MapReduce优点的同时，很好地解决了MapReduce所面临的问题。相比于Hadoop MapReduce，Spark主要具有如下优点：

Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce 更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高
Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制
- 使用Hadoop进行迭代计算非常耗资源
- Spark将数据载入内存后，之后的迭代计算都可以直接使用内存中的中间结果作运算，避免了从磁盘中频繁读取数据

在实际应用中，大数据处理主要包括以下三个类型：

当同时存在以上三种场景时，就需要同时部署三种不同的软件。比如: MapReduce / Impala / Storm

这样做难免会带来一些问题：

Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套完整的生态系统。

既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。

Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案。

因此，Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和流数据处理。

Spark生态系统已经成为伯克利数据分析软件栈BDAS（Berkeley Data Analytics Stack）的重要组成部分。Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX 等组件。
在这里插入图片描述

RDD，Resillient Distributed Dataset（弹性分布式数据集）：是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
DAG，Directed Acyclic Graph（有向无环图），反映RDD之间的依赖关系。
Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行Task。
Application：用户编写的Spark应用程序。
Task：运行在Executor上的工作单元。
Job：一个Job包含多个RDD及作用于相应RDD上的各种操作。
Stage：是Job的基本调度单位，一个Job会分为多组Task&#x