Spark13：Spark程序性能优化01：高性能序列化类库、持久化或者checkpoint、JVM垃圾回收调优、提高并行度、数据本地化

做一个有趣的人Zz

于 2022-03-09 10:25:09 发布

阅读量324

点赞数 3

分类专栏： spark 文章标签： spark 性能优化 scala

本文链接：https://blog.csdn.net/weixin_40612128/article/details/123350390

版权

spark 专栏收录该内容

19 篇文章 0 订阅 ¥39.90 ¥99.00

订阅专栏

本文深入探讨Spark性能优化，包括高性能序列化（如Kryo）以减少内存占用，RDD持久化和checkpoint减少重复计算，JVM垃圾回收调优，以及如何合理提高并行度以充分利用集群资源。通过实例分析，展示了不同优化手段对内存使用和任务执行效率的影响。

摘要由CSDN通过智能技术生成

一、性能优化分析

一个计算任务的执行主要依赖于CPU、内存、带宽。

Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。

Spark性能优化，其实主要就是在于对内存的使用进行调优。通常情况下，如果你的Spark程序计算的数据量比较小，并且你的内存足够使用，那么只要网络不至于卡死，一般是不会有大的性能问题的。
但是Spark程序的性能问题往往出现在针对大数据量进行计算（比如上亿条数的数据，或者上T规模的数据），这个时候如果内存分配不合理就会比较慢，所以，Spark性能优化，主要是对内存进行优化。

二、内存都去哪了

1、每个Java对象，都有一个对象头，会占用16个字节，主要是包括了一些对象的元信息，比如指向它的类的指针。如果一个对象本身很小，比如就包括了一个int类型的field，那么它的对象头实际上比对象自身还要大。
2、Java的String对象的对象头，会比它内部的原始数据，要多出40个字节。因为它内部使用char数组来保存内部的字符序列，并且还要保存数组长度之类的信息。
3、Java中的集合类型，比如HashMap和LinkedList，内部使用的是链表数据结构，所以对链表中的每一个数据，都使用了Entry对象来包装。Entry对象不光有对象头，还有指向下一个Entry的指针，通常占用8个字节。

所以把原始文件中的数据转化为内存中的对象之后，占用

了解本专栏

做一个有趣的人Zz

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark13：Spark程序性能优化01：高性能序列化类库、持久化或者checkpoint、JVM垃圾回收调优、提高并行度、数据本地化

一、性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽。Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。Spark性能优化，其实主要就是在于对内存的使用进行调优。通常情况下，如果你的Spark程序计算的数据量比较小，并且你的内存足够使用，那么只要网络不至于卡死，一般是不会有大的性能问题的。但是Spark程序的性能问题往往出现在针对大数据量进行
复制链接

扫一扫