Spark
1000001000,,,,
九层之坮,起于垒土。
展开
-
spark RDD 分区
分区是为了更好的利用集群中的众多CPU,提高并行度。实际分区应该考虑处理问题的类型,如果是IO密集型,考虑等待的时间,每个CPU上对应的分区可以适当多点,如果是计算密集型,每个CPU处理的分区就不能太多,不然相当于排队等待。是推荐的分区大小是一个CPU上面有2-4个分区。Spark会自动根据集群情况设置分区的个数。参考spark.default.parallelism参数和defa转载 2017-04-21 20:24:36 · 905 阅读 · 0 评论 -
spark jvm 参数设置
(1)Driver的JVM参数:-Xmx,-Xms,如果是yarn-client模式,则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值,-Xmx,-Xms值一样大小;如果是yarn-cluster模式,则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的JVM参数值。PermSize,如果是yar转载 2017-04-17 11:10:03 · 3372 阅读 · 0 评论 -
spark 工作机制
一、应用执行机制一个应用的生命周期即,用户提交自定义的作业之后,Spark框架进行处理的一系列过程。在这个过程中,不同的时间段里,应用会被拆分为不同的形态来执行。1、应用执行过程中的基本组件和形态Driver: 运行在客户端或者集群中,执行Application的main方法并创建SparkContext,调控整个应用的执行。Application:转载 2017-04-10 22:28:20 · 453 阅读 · 1 评论 -
spark shuffle内在原理说明
在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑。ShuffleShuffle是MapReduce框架中的一个特定的phase,介于Map phase转载 2017-06-03 17:34:51 · 243 阅读 · 0 评论