Spark及RDD总结

最新推荐文章于 2024-05-11 00:16:02 发布

大数据盼盼

最新推荐文章于 2024-05-11 00:16:02 发布

阅读量142

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_66455465/article/details/130562441

版权

一、spark特点

1.基于内存计算spark要快mr100倍，基于磁盘计算spark要快mr10倍。

快的原因：

1. 基于内存计算

2. 计算和数据的分离

3. 基于DAGScheduler的计算划分

4. 只有一次的Shuffle输出操作

2.Spark提供超过80多个高阶算子函数，来支持对数据集的各种各样的计算，使用的时候，可以使用java、scala、python、R，非常灵活易用。

3.Spark程序可以再多个平台上面运行

二、spark概括

一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。

三、RDD的概括

RDD就是一个不可变、可分区、里面元素可并行计算的弹性分布式数据集，不能携带数据，携带的是元数据信息。

四、RDD的五大特性

  1）A list of partitions
  RDD由很多partition构成，在spark中，计算式，有多少partition就对应有多少个task来执行
  2）A function for computing each split
  对RDD做计算，相当于对RDD的每个split或partition做计算
  3）A list of dependencies on other RDDs
  RDD之间有依赖关系，可溯源
  4）Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
  如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，比如可以按key的hash值分区
  5）Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
最优的位置去计算，也就是数据的本地性。

五、RDD依赖关系

RDD依赖关系分为两种：一种是窄依赖，一种是宽依赖

窄依赖：父RDD当中的一个分区只能被子RDD当中一个分区所依赖

宽依赖：父RDD当中的一个分区会被子RDD当中多个分区所依赖

六、算子介绍

Map：映射。针对列表当中的每一个元素进行操作，操作完成后返回一个新的列表，操作之前是多少个元素，操作之后还是多少个元素，不会增加，不会减少。

七、Option

Option下面有两个子类，一个是Some，一个是None

Some：不为空

None：为空

八、分区方式

非key，value对的数据，分区方式为None；key，value对的数据默认分区方式也为None，但是可以指定分区方式：一种是Hash，一种是Range。

大数据盼盼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark及RDD总结

针对列表当中的每一个元素进行操作，操作完成后返回一个新的列表，操作之前是多少个元素，操作之后还是多少个元素，不会增加，不会减少。2.Spark提供超过80多个高阶算子函数，来支持对数据集的各种各样的计算，使用的时候，可以使用java、scala、python、R，非常灵活易用。一个集成离线计算，实时计算，SQL查询，机器学习，图计算为一体的通用的计算框架。窄依赖：父RDD当中的一个分区只能被子RDD当中一个分区所依赖。
复制链接

扫一扫

大数据盼盼 CSDN认证博客专家 CSDN认证企业博客

码龄2年

31: 原创

117万+: 周排名

6万+: 总排名

8158: 访问

: 等级

326: 积分

31: 粉丝

6: 获赞

2: 评论

9: 收藏

私信

关注

热门文章

分类专栏

SparkSql 1篇

最新评论

Hbase特点
CSDN-Ada助手: 很棒的博客，对Hbase的特点进行了简洁明了的介绍。希望你能够继续写出更多关于Hbase的优劣分析和使用技巧，让读者更好地了解和使用这个强大的数据库。另外，补充一下Hbase的数据模型和架构设计也是一个很好的扩展方向。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434
Hbase的写逻辑
CSDN-Ada助手: 恭喜您写出了关于Hbase写逻辑的精彩博客！不仅内容深入浅出、逻辑清晰，而且对读者的帮助非常大。希望您继续保持创作的热情，为我们带来更多有价值的文章。接下来，建议您可以探讨一下Hbase在大数据场景下的应用案例或者是结合实际场景来分析一下Hbase的性能优化。期待您的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148 看奖励名单。
Hbase 架构各个角色的功能以及使用场景
CSDN-Ada助手: 非常感谢用户的分享，这篇博客对于理解 Hbase 架构各个角色的功能以及使用场景非常有帮助。很高兴看到用户持续创作，希望能够继续分享更多关于 Hbase 的知识和经验，让更多人受益。建议下一步可以深入探讨 Hbase 的性能优化和实战经验，期待用户的精彩发表。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。