概述:
1、Spark的主要特点:运行速度快;容易使用;通用性;运行模式多样。
Spark生态系统:
1、大数据处理主要包括以下3个类型
2、 Spark的设计遵循“一个软件栈满足不同应用场景”的理念。即同时支持批处理、交互式查询、流数据处理。
3、Spark组件:Spark Core、Spark SQL(交互式查询分析)、Spark Streaming(流计算)、MLlib(机器学习)、GraphX(图计算)。其中,Spark Core包含Spark最基础和最核心的功能,如:内存计算、任务调度、部署模式、故障恢复、存储管理等。
Spark运行架构:
1、Spark运行架构就是指Spark Core的运行架构。如图:
进程(Executor)会派生出很多线程,线程去执行具体的任务。
集群资源管理器(Cluster Manager):它对整个集群的资源进行调度和管理。
CPU、内存、带宽这些都叫集群资源。
集群资源管理器可以是Spark自带的资源管理器&#