spark
yanzhelee
这个作者很懒,什么都没留下…
展开
-
Spark的广播变量和累加变量
通常情况下,当向Spark操作(比如map或者reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有限类型的共享变量,广播变量和累加器。翻译 2017-09-15 15:18:09 · 1210 阅读 · 1 评论 -
Spark性能优化之shuffle调优
Spark性能优化之shuffle调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资转载 2017-10-26 18:45:45 · 472 阅读 · 0 评论 -
Spark性能调优之数据倾斜调优
Spark性能调优之数据倾斜调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象多数task执行得都非常快,但个别task执行极慢。比如,总共转载 2017-10-26 18:40:52 · 411 阅读 · 0 评论 -
Spark性能优化之资源调优
Spark性能优化之资源调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有转载 2017-10-26 18:39:09 · 434 阅读 · 0 评论 -
Spark性能优化之开发调优
Spark性能优化之开发调优以下内容源自美团网Spark工程师总结的关于Spark性能优化的方案中的部分内容。调优概述Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一下性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以下原则,并将这些原则根据具体转载 2017-10-26 18:37:38 · 413 阅读 · 0 评论 -
Spark Scheduler内部原理剖析
Spark Scheduler内部原理剖析分布式运行框架Spark可以部署在多种资源管理平台,例如Yarn、Mesos等,Spark本身也实现了一个简易的资源管理机制,称之为Standalone模式。由于工作中接触较多的是Spark on Yarn,以下所述表示Spark on Yarn。Spark部署在Yarn上有两种运行模式,分别是client和cluster模式,它们的区别仅仅在于Spark转载 2017-10-26 18:33:47 · 790 阅读 · 0 评论 -
Spark Streaming——DStream Transformation操作
Spark Streaming——DStream Transformation操作Spark的各个子框架都是基于spark core的,Spark Streaming在内部的处理机制是,接收实时流的数据,并根据一定的时间间隔拆分成一批数据,然后通过Spark Engine处理这些批数据,最终得到处理后的一批结果数据。对应的批数据,在spark内核对应一个RDD实例,因此,对应流数据的DStream可转载 2017-09-19 23:41:29 · 1725 阅读 · 0 评论 -
Spark RDD 持久化
Spark RDD 持久化注:该文档针对Spark2.1.0版本Spark最重要的一个功能是它可以通过各种操作(operations)持久化(或者缓存)一个集合到内存中。当你持久化一个RDD的时候,每一个节点都将参与计算的所有分区数据存储到内存中,并且这些数据可以被这个集合(以及这个集合衍生的其他集合)的动作(action)重复利用。这个能力使后续的动作速度更快(通常快10倍以上)。对应迭代算法和快翻译 2017-09-15 18:02:37 · 576 阅读 · 0 评论 -
Spark Streaming缓存、Checkpoint机制
Spark Streaming缓存、Checkpoint机制1 Spark Stream 缓存Dstream是由一系列的RDD构成的,它同一般的RDD一样,也可以将流式数据持久化,采用同样的persisit方法,调用该方法后DStream将持久化所有的RDD数据。这对于一些需要重复计算多次或者数据需要反复被 使用的DStream特别有效。像reduceByWindow、reduceByKeyAndW转载 2017-09-23 23:21:40 · 7708 阅读 · 0 评论 -
spark生态及运行原理
spark 生态及运行原理spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。适用场景广泛 => 大数据分析统计,实时数据处理,图计算及机器学习易用性 => 编写见到那,支持80多种以上的高级算子,支持多种语言,数据源丰富,可部署在多种集群中容错性高 => Spark引进了弹性分布式数据集RDD,它是分布在一组节点中的只读对象转载 2018-02-24 14:51:32 · 648 阅读 · 0 评论