kryo序列化方式测试

最新推荐文章于 2024-07-31 16:09:50 发布

大西觉得海星

最新推荐文章于 2024-07-31 16:09:50 发布

阅读量662

点赞数 2

分类专栏： spark 大数据文章标签： spark kryo 序列化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tyz_tyz/article/details/94467530

版权

本文通过测试不同序列化方式（包括kryo和java原生序列化）在Spark中的应用，分析了内存占用、运行时间和持久化效率。结果显示，kryo序列化在注册相关类后，能显著降低内存占用并提高运行速度。

摘要由CSDN通过智能技术生成

kryo序列化测试
测试spark程序运行中对RDD进行操作，添加与不添加序列化在性能上的区别。
区别包括占用内存大小，程序运行时间等。

测试spark流程
随机生成字符串，以空格分割成行，进行多次map遍历。对结果进行持久化，并保存成文件。
case class DataCase(input: Int) // 一个简单的case class.
val testNew2 = testRDD.flatMap(x => x.split(" "))
.map(x => DataCase(x))
.map(x => x) // map * 10086

testNew2.persist()
testNew2.repartition(1)
.saveAsTextFile("./test.file")

persist() 方法包含了多种持久化类型。
persist() 默认持久化类型为org.apache.spark.storage.StorageLevel.MEMORY_ONLY
// persist(StorageLevel.MEMORY_ONLY)

持久化类型：
MEMORY_ONLY : 将 RDD 以反序列化 Java 对象的形式存储在 JVM 中。如果内存空间不够，部分数据分区将不再缓存，在每次需要用到这些数据时重新进行计算。这是默认的级别。
MEMORY_AND_DISK : 将 RDD 以反序列化 Java 对象的形式存储在 JVM 中。如果内存空间不够，将未缓存的数据分区存储到磁盘，在需要使用这些分区时从磁盘读取。
MEMORY_ONLY_SER : 将 RDD 以序列化的 Java 对象的形式进行存储（每个分区为一个 byte 数组&#

最低0.47元/天解锁文章

大西觉得海星

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kryo序列化方式测试

kryo序列化测试测试spark程序运行中对RDD进行操作，添加与不添加序列化在性能上的区别。区别包括占用内存大小，程序运行时间等。测试spark流程随机生成字符串，以空格分割成行，进行多次map遍历。对结果进行持久化，并保存成文件。case class DataCase(input: Int) // 一个简单的case class.val testNew2 = testRDD.f...
复制链接

扫一扫

专栏目录

大西觉得海星 CSDN认证博客专家 CSDN认证企业博客

码龄10年

32: 原创

28万+: 周排名

141万+: 总排名

2万+: 访问

: 等级

565: 积分

1: 粉丝

13: 获赞

5: 评论

14: 收藏

私信

关注

分类专栏

最新评论

python全排列，递归
A 茂茂: 好难理解
python全排列，递归
loneless_stars: 看了好几个大佬的都没看懂，这个看懂了，谢谢大佬
pip使用国内源
程序哲学: 收藏了，说不定会用上
xpath的使用方法，爬虫实例
大西觉得海星: 网址改了http://www.cyzone.cn/company/list-0-0-1-0-0/0 之前那个访问不上了，试试新的，xpath路径什么的再看看好了。可能是一样的。
python数据结构：栈，队列，二叉树
kevin聪: 顶！博主加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。