spark入门到精通（1）

最新推荐文章于 2025-06-26 15:45:31 发布

wang987158

最新推荐文章于 2025-06-26 15:45:31 发布

阅读量599

点赞数

CC 4.0 BY-SA版权

分类专栏： spark基础文章标签： spark

本文链接：https://blog.csdn.net/wang987158/article/details/104523208

spark基础专栏收录该内容

2 篇文章

订阅专栏

本文深入解析Spark大数据处理框架的特点与优势，涵盖Spark的历史、架构、应用场景及与Hadoop MapReduce的区别。详细介绍Spark的统一解决方案、速度优势及编程友好性，适合初学者全面了解Spark。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark学习第一天了解spark，以及一些简单的基础

1.学习目标

了解spark相关背景以及其框架特点
掌握搭建spark集群（尤其是高可用集群搭建）（重点）
掌握spark应用程序开发以及运行（重点）
掌握Spark框架中的角色（重点）

2.Spark基础

2.1什么是Spark

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

Spark官网：http://spark.apache.org/
概念：Spark是统一的分布式大数据分析引擎
- 关键词：
  - 统一：Spark能够适应多种计算场景（离线计算、实时计算、机器学习、图计算、AI应用）。一般公司在进行技术选型过程，spark首选
  - 大数据分析引擎：Spark能够分析数据，但是没有存储。一般线上的spark数据来源（HDFS, Hive、Kafka、Flume、日志文件、关系型数据库、NoSQL数据库）。Spark数据出口（HDFS、Hive、Kafka、Redise、关系型数据库、NoSQL数据库）
  - 分布式：Spark一般情况是以集群模式存在。架构：Master/Slaver(主从结构)
- 应用场景
  - 精准广告推荐系统（Spark机器学习，一般在广告或者电商公司应用）
  - 金融风险管控系统（对实时性要求比较，起码毫秒级）
  - 精细化运行系统（CMS系统、BI系统，重点：多维分析）
  - 用户画像（用户数据画像）

2.2为什么要学习spark

Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

2.2 Spark特点：

速度快
- 典型数据处理流程：Spark在使用过程中，会读取HDFS上数据，并且会将HDFS中数据驻留在内存当中，将数据进行缓存、在后续数据迭代操作过程能够重用内存中的数。在逻辑回归处理（算法）中，Spark的速度要比Hadoop 理论上快100倍
- 与Hadoop的MapReduce相比，Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。
Spark对程序员非常友好
- spark支持多种语言（Java、Scala、Python、R、SQL）
- Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell，可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
Spark一站式解决方案
- 五大模块
  - SparkCore （处理离线数据）
  - SparkSQL (主要用来做多维数据分析、以及交互式查询)
  - SparkStreaming （实时数据处理程序）
  - Spark MLlib （机器学习包含非常多算法，相当于Spark提供的一个算法）
  - Spark Graphx （图计算处理模块）
  在开发Spark应用程序过程中，能够同时使用以上所有模块。以上模块能够无缝兼容
  
  Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力，毕竟任何公司都想用统一的平台去处理遇到的问题，减少开发和维护的人力成本和部署平台的物力成本。
兼容性
- Spark能够兼容（hadoop、hive、hbase、yarn、kafka、flume、redise、关系型数据等）
- Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。

7.Spark应用程序的运行模式

spark应用程序想要运行需要资源（CPU和内存网络资源）。spark支持多种获取资源的方式。spark根据获取资源方式的不同，就具备不同的运行模式。
不同的运行模式
- local[N] :通过本机启动线程的方式，来模拟spark的并行计算。N可以是具体的数字，N可以是* ：*代表的是机器的cpu核数（学习）
- standalone：标准模式，以spark集群模式提交应用程序。standalone模式是向spark的master进程去获取资源（集群测试+学习）
- yarn：spark以集群模式提交应用程序，向yarn申请资源（ResourceManager进程申请资源）。线上运行都是以这种模式。（生产环境下边的运行模式）
- 高可用模式提交任务：在高可用模式下，因为涉及到多个Master，所以对于应用程序的提交就有了一点变化，因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单，只需要在SparkContext指向一个Master列表就可以了，如spark://host1:port1,host2:port2,host3:port3，应用程序会轮询列表，找到活着的Master。

8.Spark应用程序开发

8.1spark-shell开发

spark-shell初始化操作
- Spark context Web UI：Spark Job任务的管理界面
- Spark context ：初始化SparkContext对象名称 sc （SparkContext对象是spark应用程序的入口对象）
  - master = local[*]：默认情况下spark-shell 向本地机器获取资源
  - app id = local-1557469470546。每个spark应用程序都会产生一个appid
- Spark session：一次回话对象，可以使用sparksession 调用SparkSQL
基于spark-shell的wordcount操
spark-shell 以standalone模式启动
- ./spark-shell --master spark://node-01:7077
- 由于spark在spark-env.sh配置了 HADOOP_CONF_DIR 路径，那么spark-shell 读取数据默认的都是hdfs之上数据

9.基于IDEA编程

Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算，比Hadoop中MapReduce计算框架具有更高的实时性，同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目，并成功应用于商业集群中，学习Spark就需要了解其架构。

Spark架构使用了分布式计算中master-slave模型，master是集群中含有master进程的节点，slave是集群中含有worker进程的节点。

Driver Program ：运⾏main函数并且新建SparkContext的程序。

Application：基于Spark的应用程序，包含了driver程序和集群上的executor。

Cluster Manager：指的是在集群上获取资源的外部服务。目前有三种类型

（1）Standalone: spark原生的资源管理，由Master负责资源的分配

（2）Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架

（3）Hadoop Yarn: 主要是指Yarn中的ResourceManager

Worker Node：集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过slaves文件配置的Worker节点，在Spark on Yarn模式下就是NodeManager节点

Executor：是在一个worker node上为某应用启动的⼀个进程，该进程负责运行任务，并且负责将数据存在内存或者磁盘上。每个应用都有各自独立的executor。

Task ：被送到某个executor上的工作单元。

按照提供资源分配
- ClusterManger：集群资源管理器，会接受SparkContext发送来指令（申请资源），然后向workerNode节点发送指令分配资源
  - standalone模式： spark的master节点
  - yarn模式：ResourceManage
- WorkerNode：提供Spark应用程序运行时所需要的资源（CPU和内存）。Workernode 在接受到clusterManger的指令后，会汇报worker的信息。
  
  以上节点完成了Spark应用程序运行时所需要的资源
  
  资源分配方式：
  - 静态分配：一次性费配资源，在整个spark应用程序运行过程中，不会再次分配资源
    - standalone：属于静态分配
  - 动态分配：在整个spark应用程序运行过程中，需要多少给多少，需要多次分配资源，一旦资源使用完成，会进行回收，再次需要的时候会再次申请资源
    - yarn：动态分配
按照程序运行的方式分配
- Driver Programe： main +sparkcontext。一般运行在Diver节点（可以是一台机器）
  - Driver节点可有与spark 集群分离。一般情况下Driver节点其实就是Spark集群中的某台机器。这样做是为了节省网络资源。因为在这个Spark应用程序运行过程中，会不断与Spark集群进行信息传递。
  - Spark-submit 把程序提交到yarn集群，yarn会根据集群资源状况，分配一个driver，然后spark程序会将jar上传到yarn，通过yarn去执行。
  - standalone：master节点就可以作为driver节点
- Sparkcontext：是spark程序的入口对象。并且还是Spark应用程序的核心调度对象。在SparkContext对象初始化过程中，初始化了三个重要调度对象：高层调度器 DAGScheduler 底层调度 TaskScheduler SchedulerBackend 负责通信
- Executor：运行在worker节点的一个进程。在Eecutor进程中，启动线程池运行Task。通过线程并发执行和以及线程复用的形式执行Task
- Task：是数据处理任务最小单元，整个Spark应用程序最终会被划分成不同的Task，去运行处理数据。
- cache：缓存，主要缓存RDD中数据的，可以缓存到内存也可以缓存到磁盘，还可以缓存HDFS之上。
  
  以上角色就完成了整个Spark Job的调度