程序媛gjf-CSDN博客

原创 Shuffle调优之合并map端输出文件（三）

什么样的情况下，会发生shuffle？在spark中，触发Action算子就会发生shuffle,主要是以下几个算子：groupByKey、reduceByKey、countByKey、join等等。什么是shuffle？groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个...

2018-10-28 11:45:33 352

原创 JVM原理之新生代老年代

堆内存JVM在年轻代中开辟了三块区域，分别为Eden区域、两个survivor（存活区）。存放我们创建的一些对象，我们在spark task执行算子函数，可能会创建很多对象，这些对象，都是要放入JVM年轻代中的。每一次放对象的时候，都是放入Eden区域，和其中一个survivor区域，另外一个survivor区域是空闲的。ivEden区域和一个survivor区域放满了以后，就会触发min...

2018-10-28 00:27:59 380

原创 Spark 性能优化之JVM调优降低cache操作的内存占比（2）（一）

JVM相关的参数，通常情况下，如果你的硬件配置、基础的JVM的配置，都ok的话，JVM通常不会造成太严重的性能问题；反而更多的是，在troubleshooting中，JVM占了很重要的地位；JVM造成线上的spark作业的运行报错，甚至失败（比如OOM）。spark中，堆内存又被划分成了两块儿，一块儿是专门用来给RDD的cache、persist操作进行RDD数据缓存用的；另外一块儿，就是我们刚...

2018-10-27 23:59:34 162

原创 Spark 性能优化之使用Kryo序列化（1）

默认情况下，Spark内部是使用Java的序列化机制，ObjectOutputStream / ObjectInputStream，对象输入输出流机制，来进行序列化这种默认序列化机制的好处在于，处理起来比较方便；也不需要我们手动去做什么事情，只是，你在算子里面使用的变量，必须是实现Serializable接口的，可序列化即可。但是缺点在于，默认的序列化机制的效率不高，序列化的速度比较慢；序列化...

2018-10-26 23:43:21 143

原创 Apache Storm 集群部署

storm.zookeeper.servers: - "node01" - "node02" - "node03"# nimbus.seeds: ["node01", "node02", "node03"]storm.local.dir: "/export/data/stormdata" ui.port: 8088

2018-09-27 13:08:58 196

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人