Spark性能调优(三)

本文探讨了Spark程序中数据结构优化策略,包括减少对象头开销、避免自动装箱、选择高效的数据结构等,并介绍了如何使用JVM工具及日志进行内存消耗诊断。此外,还对比了persist与checkpoint两种数据持久化方式的应用场景。
摘要由CSDN通过智能技术生成

一:Spark程序数据结构的优化 1,Java的对象:对象头是16个字节(例如指向对象的指针等元数据信息),如果对象只有一个int的property,则此时会占据20字节,也就是说对象的元数据占用了大部分的空间,所有在封装数据的时候尽量不要使用对象!例如说使用JSON格式来封装数据; 2,Java中的基本的数据类型会自动的封箱操作,例如int会自动变成Integer,这会额外增加对象头的空间占用; 3,Java的String在实际占用内存方面要额外使用40个字节(String的内部使用char[]来保存字符序列),另外需要注意的是String每个字符是2字节(UTF-16),如果内部有5个字符的话,实际上会占用50个字节; 4,Java中的集合List,HashMap等等其内部一般使用链表,具体的每个数据使用Entry等,这些也非常消耗内存; 5,优先使用原生数组,尽可能不要使用ArrayLiast、HashMap、LinkedList等数据结构,例如说List list = new ArrayList()需要考虑替换为int[] array = new int[]; 6,优先使用String(推荐使用JSON),而不是采用HashMap、List等来封装数据,例如Map<Integer,Worker> workers = new HashMap<Integer,Worker>(),建议使用JSON字符串或者自己构建的String字符串对象,例如“id:name,salary||id:name,salary||id:name,salary”;

二:Spark内存消耗诊断

1,JVM自带众多内存消耗诊断的工具如JMAP、JCONSOLE等,第三方IBM JVM Profile Tools等;

2,在开发、测试、生产环境下用的最多的是日志?Driver产生的日志!!!最简单也是最有效就是调用RDD.cache,当进行cache操作的时候Driver上的BlockManagerMaster会记录该信息并写进日志中!!!

三:persist和checkpoint

1,当反复使用某个(些)RDD的时候强烈建议使用persist来对数据进行缓存(MEMORY_AND_DISK);

2,如果某个RDD就算特别耗时或者经历了很多步骤的计算,如果数据丢失则重新计算的代价特别大,此时考虑使用checkpoint,因为checkpoint是把数据写入HDFS,天然具有高可靠性;

1.作业:使用cache诊断内存消耗。

程序如下:

Scala> val lines = sc.parallelize(Array(1,2,3,4,5,6,7,8,9))

lines: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :21

scala> lines.cache

res0: lines.type = ParallelCollectionRDD[0] at parallelize at :21

scala> lines.count

res1: Long = 9

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值