一:Spark程序数据结构的优化 1,Java的对象:对象头是16个字节(例如指向对象的指针等元数据信息),如果对象只有一个int的property,则此时会占据20字节,也就是说对象的元数据占用了大部分的空间,所有在封装数据的时候尽量不要使用对象!例如说使用JSON格式来封装数据; 2,Java中的基本的数据类型会自动的封箱操作,例如int会自动变成Integer,这会额外增加对象头的空间占用; 3,Java的String在实际占用内存方面要额外使用40个字节(String的内部使用char[]来保存字符序列),另外需要注意的是String每个字符是2字节(UTF-16),如果内部有5个字符的话,实际上会占用50个字节; 4,Java中的集合List,HashMap等等其内部一般使用链表,具体的每个数据使用Entry等,这些也非常消耗内存; 5,优先使用原生数组,尽可能不要使用ArrayLiast、HashMap、LinkedList等数据结构,例如说List list = new ArrayList()需要考虑替换为int[] array = new int[]; 6,优先使用String(推荐使用JSON),而不是采用HashMap、List等来封装数据,例如Map<Integer,Worker> workers = new HashMap<Integer,Worker>()
,建议使用JSON字符串或者自己构建的String字符串对象,例如“id:name,salary||id:name,salary||id:name,salary”;
二:Spark内存消耗诊断
1,JVM自带众多内存消耗诊断的工具如JMAP、JCONSOLE等,第三方IBM JVM Profile Tools等;
2,在开发、测试、生产环境下用的最多的是日志?Driver产生的日志!!!最简单也是最有效就是调用RDD.cache,当进行cache操作的时候Driver上的BlockManagerMaster会记录该信息并写进日志中!!!
三:persist和checkpoint
1,当反复使用某个(些)RDD的时候强烈建议使用persist来对数据进行缓存(MEMORY_AND_DISK);
2,如果某个RDD就算特别耗时或者经历了很多步骤的计算,如果数据丢失则重新计算的代价特别大,此时考虑使用checkpoint,因为checkpoint是把数据写入HDFS,天然具有高可靠性;
1.作业:使用cache诊断内存消耗。
程序如下:
Scala> val lines = sc.parallelize(Array(1,2,3,4,5,6,7,8,9))
lines: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at :21
scala> lines.cache
res0: lines.type = ParallelCollectionRDD[0] at parallelize at :21
scala> lines.count
res1: Long = 9