《Spark核心源码分析与开发实战》读书笔记之一

最新推荐文章于 2024-05-03 13:08:57 发布

MG羽白

最新推荐文章于 2024-05-03 13:08:57 发布

阅读量6.5k

点赞数

分类专栏： Spark 文章标签： Spark 核心源码分析开发实战

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/canglan211/article/details/83038455

版权

Spark 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

第1章 Spark系统概述

1.1 Spark是什么

1. Spark比Hadoop快在哪里

（1）Spark使用内存计算，而Hadoop使用IO

（2）Hadoop的计算是按部就班一步一步进行的，而Spark则是提前生成了DAG，优化了运算路径

1.2 Spark生态系统BDAS

1. BDAS：伯克利数据分析栈

2. Spark Core

Spark将数据在分布式环境下分区，然后将作业转化为有向无环图（DAG），减少了多次计算之间中间结果I/O开销，并分阶段进行DAG的调度和任务的分布式并行处理。Spark采用容错的，高伸缩性的AKKA作为通信框架，减少了多线程并发运行所带来的不确定性。还采用多线程池模型来减少task的启动开销

RDD可以想象为一个个partition，RDD之间相互具有依赖关系

计算跟着数据走

3. Spark SQL

4. Spark Streaming：核心思想是微批处理

相对于Storm的优势：吞吐量更大，更高效的容错处理

5. Spark GraphX

核心抽象是：一种点和边都带有属性的有向多重图

6. MLlib

支持四种常见的机器学习问题：分类，回归，聚类和协同过滤

7. Tachyon

高容错，高性能的开源的分布式内存文件系统（内存中的HDFS）

8. BlinkDB

在海量数据上进行交互式SQL查询的大规模并行查询引擎

核心思想：通过一个自适应优化框架，随着时间的推移，从原始数据建立并维护一组多维样本，通过一个动态样本选择策略，选择一个适度大小的示例。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Spark核心源码分析与开发实战》读书笔记之一

第1章 Spark系统概述1.1 Spark是什么1. Spark比Hadoop快在哪里（1）Spark使用内存计算，而Hadoop使用IO（2）Hadoop的计算是按部就班一步一步进行的，而Spark则是提前生成了DAG，优化了运算路径 1.2 Spark生态系统BDAS1. BDAS：伯克利数据分析栈2. Spark CoreSpark将数据在分布式环境下分...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。