初识 Spark

最新推荐文章于 2024-10-08 22:30:00 发布

腹黑客

最新推荐文章于 2024-10-08 22:30:00 发布

阅读量144

点赞数

分类专栏： spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29342297/article/details/110847932

版权

Apache Spark是一个快速的集群计算系统，以其内存计算和RDD数据结构提高效率，对比Hadoop MapReduce速度提升可达100倍。Spark支持Java、Scala、Python等多种语言，提供SQL、Dataset API和流计算等功能，并兼容多种数据库和集群环境。Spark集群包括Driver、Worker和Executor，启动模式有Client和Cluster。Spark shell则为交互式数据分析提供了便利。

摘要由CSDN通过智能技术生成

Spark

Spark 是什么

Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算.

Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件系统和完备的调度系统, 如果要使用 Spark, 需要搭载其它的文件系统和更成熟的调度系统。

为什么会有Spark

Spark 产生之前, 已经有非常成熟的计算系统存在了, 例如 MapReduce, 这些计算系统提供了高层次的API, 把计算运行在集群中并提供容错能力, 从而实现分布式计算.

虽然这些框架提供了大量的对访问利用计算资源的抽象, 但是它们缺少了对利用分布式内存的抽象, 这些框架多个计算之间的数据复用就是将中间数据写到一个稳定的文件系统中(例如HDFS), 所以会产生数据的复制备份, 磁盘的I/O以及数据的序列化, 所以这些框架在遇到需要在多个计算之间复用中间结果的操作时会非常的不高效.

而这类操作是非常常见的, 例如迭代式计算, 交互式数据挖掘, 图计算等.

认识到这个问题后, 学术界的 AMPLab 提出了一个新的模型, 叫做 RDDs.

RDDs 是一个可以容错且并行的数据结构, 它可以让用户显式的将中间结果数据集保存在内中, 并且通过控制数据集的分区来达到数据存放处理最优化.

同时 RDDs 也提供了丰富的 API 来操作数据集.

后来 RDDs 被 (加州大学伯克利分校 AMPLab 开创)AMPLab 在一个叫做 Spark 的框架中提供并开源.

Spark的特点(优点)

速度快
- Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍
- 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍
- Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存在内存中可以进行迭代处理
易用
- Spark 支持 Java, Scala, Python, R, SQL 等多种语言的API.
- Spark 支持超过80个高级运算符使得用户非常轻易的构建并行计算程序
- Spark 可以使用基于 Scala, Python, R, SQL的 Shell 交互式查询.
通用
- Spark 提供一个完整的技术栈, 包括 SQL执行, Dataset命令式API, 机器学习库MLlib, 图计算框架GraphX, 流计算SparkStreaming
- 用户可以在同一个应用中同时使用这些工具, 这一点是划时代的
兼容
- Spark 可以运行在 Hadoop Yarn, Apache Mesos, Kubernets, Spark Standalone等集群中
- Spark 可以访问 HBase, HDFS, Hive, Cassandra 在内的多种数据库

Spark 组件

Spark 最核心的功能是 RDDs, RDDs 存在于 spark-core 这个包内, 这个包也是 Spark 最核心的包.

同时 Spark 在 spark-core 的上层提供了很多工具, 以便于适应不

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

腹黑客 CSDN认证博客专家 CSDN认证企业博客

码龄9年

112: 原创

31万+: 周排名

119万+: 总排名

9万+: 访问

: 等级

1565: 积分

39: 粉丝

40: 获赞

25: 评论

183: 收藏

私信

关注

分类专栏

spark 8篇
scala 7篇
kafka 4篇
操作系统 12篇
flink 21篇

最新评论

Linux命令快速复习
张小鱼༒: 博主，你的这个lsdt命令咋使用的？这个在Linux里面咋使用？
kafka快速入门
SiegfriedG: 如果某一个分区有三个副本因子，就算其中一个挂掉，那么只会剩下的两个钟，两个钟什么意思啊
Flink 快速入门案例(参考官方文档)
Lzzzii: 你好，为什么我直接运行控制台没反应呢
python3用mysqlclient连接mysql数据库操作问题
IT包工头hyh: 你安装的mysqlclint，为啥用的是mysqldb呢
Flink - Table API 之 window (窗口)
KledLi: 好家伙直接把官方文档粘过来

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。