自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Shuffle调优之合并map端输出文件(三)

什么样的情况下,会发生shuffle?在spark中,触发Action算子就会发生shuffle,主要是以下几个算子:groupByKey、reduceByKey、countByKey、join等等。什么是shuffle?groupByKey,要把分布在集群各个节点上的数据中的同一个key,对应的values,都给集中到一块儿,集中到集群中同一个节点上,更严密一点说,就是集中到一个节点的一个...

2018-10-28 11:45:33 352

原创 JVM原理之新生代老年代

堆内存JVM在年轻代中开辟了三块区域,分别为Eden区域、两个survivor(存活区)。存放我们创建的一些对象,我们在spark task执行算子函数,可能会创建很多对象,这些对象,都是要放入JVM年轻代中的。每一次放对象的时候,都是放入Eden区域,和其中一个survivor区域,另外一个survivor区域是空闲的。ivEden区域和一个survivor区域放满了以后,就会触发min...

2018-10-28 00:27:59 380

原创 Spark 性能优化之JVM调优降低cache操作的内存占比(2)(一)

JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如OOM)。spark中,堆内存又被划分成了两块儿,一块儿是专门用来给RDD的cache、persist操作进行RDD数据缓存用的;另外一块儿,就是我们刚...

2018-10-27 23:59:34 162

原创 Spark 性能优化之使用Kryo序列化(1)

默认情况下,Spark内部是使用Java的序列化机制,ObjectOutputStream / ObjectInputStream,对象输入输出流机制,来进行序列化这种默认序列化机制的好处在于,处理起来比较方便;也不需要我们手动去做什么事情,只是,你在算子里面使用的变量,必须是实现Serializable接口的,可序列化即可。但是缺点在于,默认的序列化机制的效率不高,序列化的速度比较慢;序列化...

2018-10-26 23:43:21 143

原创 Apache Storm 集群部署

storm.zookeeper.servers: - "node01" - "node02" - "node03"# nimbus.seeds: ["node01", "node02", "node03"]storm.local.dir: "/export/data/stormdata" ui.port: 8088

2018-09-27 13:08:58 196

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除