Spark学习笔记

最新推荐文章于 2024-07-02 09:36:29 发布

slx_share

最新推荐文章于 2024-07-02 09:36:29 发布

阅读量614

点赞数

分类专栏： Spark_Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/slx_share/article/details/82820571

版权

Spark_Hadoop 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Hadoop中MapReduce计算框架是基于磁盘的，每次计算结果都会直接存储到磁盘，下一次计算又要从磁盘中读取，因而IO消耗大，迭代计算效率很低，且模型单一，不能适应复杂需求。Spark是一种基于内存的开源计算框架，迭代计算效率非常高。另外，MapReduce的计算是一步一步来的，而Spark将整个计算过程绘制成 DAG(有向无环图)，优化了计算路径，这也是Spark计算速度较快的原因之一。

BDAS

BDAS是贝克利数据分析栈，如下图：
bdas

Spark Core

Spark Core和MapReduce一样是一个分布式大数据处理框架。包括如下几个部分：

RDD: 弹性分布式数据集，是最重要的一类数据抽象。
1. RDD是抽象类，不同操作生成相应的子类，类提供操作RDD的接口
2. 惰性计算，遇到action算子才真正执行计算
3. 对父RDD可存在依赖关系，分为窄依赖和宽依赖
4. 内部数据只读
5. 分区，数目尽可能等于集群核心数目
Driver 进程：负责初始化和关闭SparkContext
SparkContext：计算入口，负责加载配置文件，准备运行环境
ClusterManager：集群资源管理器，包括YARN、Standlone和Mesos
DAGScheduler：面向Stage的任务调度器，根据RDD依赖关系将Job划分成Stage
TaskScheduler：面向Task的任务调度器，接收来自DAGScheduler的每个Stage中的Taskset，将其提交给Executor
Executor进程：工作节点上运行的一组计算进程，每个进程又可以启动线程池

计算流程图

通常将实际运行Spark应用程序的节点命名为Worker。整个计算流程图如下图所示：
spark

参考资料

Spark核心源码分析与开发实战，王家林等
Spark原理、机制及应用，符积高等

注：如有不当之处，请指正

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。