Spark调优
文章平均质量分 94
铭霏
这个作者很懒,什么都没留下…
展开
-
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数Spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism转载 2016-05-28 17:22:50 · 1234 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(一)
当你开始编写 Apache Spark 代码或者浏览公开的 API 的时候,你会遇到各种各样术语,比如 transformation,action,RDD 等等。 了解到这些是编写 Spark 代码的基础。 同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解一些新的名词: job, stage, task。对于这些新术语的理解有助于编写良好 Spar转载 2016-06-17 15:59:24 · 1972 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(二)
在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到数据本身的表达形式,Spark 读取在磁盘的上的形式(主要是Apache Avro和 Apache Parquet)以及当数据需要转载 2016-06-17 16:08:02 · 1466 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2016-06-11 18:04:44 · 77784 阅读 · 17 评论 -
Spark性能优化:数据倾斜调优
本文转载自:http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队)前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能转载 2016-06-01 15:36:13 · 18215 阅读 · 2 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占转载 2016-06-11 19:38:42 · 27998 阅读 · 2 评论 -
Spark的性能调优(1)
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面 去执行。Stage指的是一组并行运行的ta转载 2016-06-01 15:55:15 · 2662 阅读 · 0 评论 -
『 Spark 』10. spark 应用程序性能优化|12 个优化方法
原文:http://litaotao.github.io/boost-spark-application-performance本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原转载 2016-06-01 16:51:45 · 2937 阅读 · 0 评论 -
sparkSQL1.1入门之九:sparkSQL之调优
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑 平行运算的 Amdahl定理。木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和CPU资转载 2016-06-09 23:03:30 · 2163 阅读 · 0 评论 -
Spark中存在的各种2G限制
motivation 动机The various 2G limit in Spark. Spark中存在的各种2G限制问题. 1. When reading the data block is stored in the hard disk, the following code fragment is called. 获取缓存在本地硬盘的数据块时,会调用以下代码片段转载 2017-12-10 19:33:45 · 2102 阅读 · 0 评论