spark入门

最新推荐文章于 2024-09-05 11:23:14 发布

AヾSmile♂ 汝

最新推荐文章于 2024-09-05 11:23:14 发布

阅读量113

点赞数

分类专栏： java 文章标签： spark scala big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smileYYR/article/details/120021540

版权

本文介绍了Spark的基本概念，包括其作为大规模数据处理引擎的特点和速度优势。深入讲解了Spark生态圈，核心架构设计，特别是RDD的概念和算子类型。此外，还探讨了Spark的不同运行模式及用户交互方式，并提供了Java实现Spark WordCount的示例。

摘要由CSDN通过智能技术生成

1.spark是什么

spark为大规模数据处理而设计的快速通用的计算引擎。

2.特点

速度快，内存计算下 spark比hadoop快100倍
易用性：80多个高级运算符支持java，scala，Python，R，sql
通用性：提供大量库，例如sql，dataframes等可在同一个应用程序无缝编写程序
支持多种资源管理器：hadoop、yarn、apache、mesos

3.spark生态圈

在这里插入图片描述

4.spark core架构设计图

在这里插入图片描述

4.1相关术语
1）RDD：弹性分布式数据集，是一组只读、可分区的分布式数据集合
2）Partition：计算是以partition为单位进行的，o 一个Partition交给一个Task去计算处理
3）算子：对任何函数进行某一项操作都可以认为是一个算子，算子即为映射、关系、变换
4）Transformation类算子：操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，

最低0.47元/天解锁文章

AヾSmile♂ 汝

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark入门

1.spark是什么spark为大规模数据处理而设计的快速通用的计算引擎。2.特点速度快，内存计算下 spark比hadoop快100倍易用性：80多个高级运算符支持java，scala，Python，R，sql通用性：提供大量库，例如sql，dataframes等可在同一个应用程序无缝编写程序支持多种资源管理器：hadoop、yarn、apache、mesos3.spark生态圈4.spark core架构设计图4.1相关术语1）RDD：弹性分布式数据集，是一组只读、可分区的分
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。