spark
文章平均质量分 57
程序媛gjf
这个作者很懒,什么都没留下…
展开
-
Shuffle调优之合并map端输出文件(三)
什么样的情况下,会发生shuffle?在spark中,触发Action算子就会发生shuffle,主要是以下几个算子:groupByKey、reduceByKey、countByKey、join等等。什么是shuffle?groupByKey,要把分布在集群各个节点上的数据中的同一个key,对应的values,都给集中到一块儿,集中到集群中同一个节点上,更严密一点说,就是集中到一个节点的一个...原创 2018-10-28 11:45:33 · 352 阅读 · 0 评论 -
Spark 性能优化之使用Kryo序列化(1)
默认情况下,Spark内部是使用Java的序列化机制,ObjectOutputStream / ObjectInputStream,对象输入输出流机制,来进行序列化这种默认序列化机制的好处在于,处理起来比较方便;也不需要我们手动去做什么事情,只是,你在算子里面使用的变量,必须是实现Serializable接口的,可序列化即可。但是缺点在于,默认的序列化机制的效率不高,序列化的速度比较慢;序列化...原创 2018-10-26 23:43:21 · 143 阅读 · 0 评论 -
Spark 性能优化之JVM调优降低cache操作的内存占比(2)(一)
JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如OOM)。spark中,堆内存又被划分成了两块儿,一块儿是专门用来给RDD的cache、persist操作进行RDD数据缓存用的;另外一块儿,就是我们刚...原创 2018-10-27 23:59:34 · 162 阅读 · 0 评论