Spark基础：第一章 spark概述

落落free

于 2019-05-24 21:01:50 发布

阅读量595

点赞数

分类专栏：大数据阶段 # Spark 文章标签： Spark Core 大数据 Linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39394264/article/details/90522906

版权

本文介绍了Spark作为大数据并行计算框架的基础，强调其内存计算速度、易用性和通用性。对比了MapReduce与Spark的区别，并概述了Spark生态系统、基本概念以及架构设计，包括RDD、DAG和Stage等核心概念。

摘要由CSDN通过智能技术生成

Spark基础：第一章 spark概述

-------------------------------spark guide-----------------------------------

文章目录

Spark基础：第一章 spark概述

一、spark是什么？

基于内存计算的大数据并行计算框架
背景
(1) 于2009年开发，可用于构建大型的、低延迟的数据分析应用程序。
(2) 2013年Spark加入apache孵化器项目，如今是apache软件三大分布式计算系统开源项目之一（Hadoop、spark、storm）-> 批处理batch和流数据streaming data
大数据分析引擎
底层操作的是RDD

二、为什么用spark？

1. 特点

(1) 运行速度快
使用DAG执行引擎以支持循环数据流与内存计算

(2) 容易使用
支持Scala、Java、python和R语言等进行编程，可以通过spark shell进行交互式编程（REPL）

(3) 通用性
一栈式，包括SQL查询、流式计算、机器学习和图算法组件

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark基础：第一章 spark概述

Spark Core：第一章 spark概述文章目录Spark Core：第一章 spark概述一、spark是什么？二、为什么用spark？1. 特点2. MapReduce 与 Spark 对比三、spark生态系统1. 原理2. 组件四、spark中的基本概念五、spark架构设计一、spark是什么？基于内存计算的大数据并行计算框架背景(1) 于2009年开发，可用于构建大...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。