spark rdd存储开销分析

最新推荐文章于 2022-11-22 06:06:28 发布

tanglizhe1105

最新推荐文章于 2022-11-22 06:06:28 发布

阅读量3.7k

点赞数 2

分类专栏： Spark 文章标签： spark rdd 存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tanglizhe1105/article/details/51050974

版权

背景

很多使用spark的朋友很想知道rdd里的元素是怎么存储的，它们占用多少存储空间？本次我们将以实验的方式进行测试，展示rdd存储开销性能。
关于rdd的元素怎么存储，spark里面实现了好几种不同类型的rdd，如最常见的MapPartitionsRDD，它处理map,filter,mapPartition等不引起shuffle的算子；再如ShuffledRDD它由shuffle操作生成的；像GraphX里面的VertexRDD、EdgeRDD和TripletRDD，它们是分区内构建了大量索引得rdd。不同的rdd拥有不同的元素存储机制，这些机制由rdd具体的分区对象来实现。关于rdd分区对象的存储方式，由于内容过多，这里不便介绍。

测试方法论

rdd到底占用多少空间，使用spark web ui的Executors查看是不够的，它只能显示executor目前已使用内存空间大小，并不能跟踪每个rdd空间使用情况。好在spark提供了cache功能，它能使我们手动控制rdd在内存中贮存。若另外一个rdd使用已cache的rdd，那么它的输入便是cached rdd，rdd的输入在web ui的job信息里是可以查看的。本实验的主要方法便是如此

val a = sc.parallelize( 1 to 1024*1024, 1).cache()

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark rdd存储开销分析

背景很多使用spark的朋友很想知道rdd里的元素是怎么存储的，它们占用多少存储空间？本次我们将以实验的方式进行测试，展示rdd存储开销性能。关于rdd的元素怎么存储，spark里面实现了好几种不同类型的rdd，如最常见的MapPartitionsRDD，它处理map,filter,mapPartition等不引起shuffle的算子；再如ShuffledRDD它由shuffle操作生成的；像G
复制链接

扫一扫

专栏目录

tanglizhe1105 CSDN认证博客专家 CSDN认证企业博客

码龄13年

16: 原创

31万+: 周排名

135万+: 总排名

10万+: 访问

: 等级

1223: 积分

30: 粉丝

34: 获赞

20: 评论

40: 收藏

私信

关注

热门文章

分类专栏

Spark 9篇
linux 1篇
java 2篇
scala 4篇
LDA 2篇
MLlib 2篇

最新评论

intellij idea直接编译spark源码及问题解决
℡醒着か醉: Tool Windows 下没有Maven Projects怎么搞
google PLDA + 实现原理及源码分析
wyloveyxb: 同PDL 竟然看到了PDL的学长
Spark RDD算子源码解读
找工作的大数据开发: filter的源码 while循环里我看是不符合p的情况下为true，在之后为true时返回hd，这段不理解，能给出详细的解释么
google PLDA + 实现原理及源码分析
Marvin Ming: 您好，请问plda+的代码你是在哪里下载的呢，我只找到plda的代码，多谢哈
java/scala优先队列(PriorityQueue)元素改变后如何实现有序
lmxsport: scala 的 PriorityQueue 不存在add addAll API

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

目录

分类专栏

Spark 9篇
linux 1篇
java 2篇
scala 4篇
LDA 2篇
MLlib 2篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。