- 博客(16)
- 收藏
- 关注
转载 深度剖析Spark分布式执行原理
让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。Spark运行在JVM之上,...
2017-07-17 14:48:00
195
转载 在Apache Spark 2.0中使用 DataFrames 和 SQL
Spark 2.0开发的一个动机是让它可以触及更广泛的受众,特别是缺乏编程技能但可能非常熟悉SQL的数据分析师或业务分析师。因此,Spark 2.0现在比以往更易使用。在这部分,我将介绍如何使用Apache Spark 2.0。并将重点关注DataFrames作为新Dataset API的无类...
2017-07-11 10:45:00
138
转载 Spark性能优化:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1.数据倾斜调优 ...
2017-07-07 15:26:00
158
转载 Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集...
2017-07-07 15:09:00
139
转载 Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试...
2017-07-07 14:48:00
98
转载 Spark性能优化:shuffle调优
shuffle调优 调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能...
2017-07-07 14:44:00
90
转载 Spark的运行模式
Point 1:Spark on Standalone Standalone模式是Spark实现的资源调度框架,其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中,也可以运行在本地Client端。当用spark-shell交互...
2017-07-05 11:15:00
87
转载 Spark的运行模式
Point 1:Spark on Standalone Standalone模式是Spark实现的资源调度框架,其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中,也可以运行在本地Client端。当用spark-shell交互...
2017-07-05 11:14:00
78
转载 Scala注解
Annotation是一种对程序代码进行描述的结构化信息。Annotation可以分布在程序的任何地方,能够注解变量、类、方法、参数等多种元素,它的主要功能有以下几种: 1.自动生成scala文档 2. 检查程序中可能出现的语法问题 3. 规定程序行为 注解的常用场景包括v...
2017-06-30 13:55:00
129
转载 Spark面对OOM问题的解决方法及优化总结
Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,red...
2017-06-29 11:01:00
114
转载 spark 排错与优化
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成Sparkui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启...
2017-05-17 16:39:00
302
转载 关于count(distinct)的优化
日常统计场景中,我们经常会对一段时期内的字段进行消重并统计数量,SQL语句类似于 SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...; 这条语句是从一个表的符合WHERE条件的记录中统计不重复的id的总数。 该语句转化为MapRed...
2017-05-02 10:20:00
3725
转载 HIVE动态分区插入数据
Hive的insert语句能够从查询语句中获取数据,并同时将数据Load到目标表中。现在假定有一个已有数据的表staged_employees(雇员信息全量表),所属国家cnty和所属州st是该表的两个属性,我们做个试验将该表中的数据查询出来插入到另一个表employees中。 ...
2017-04-21 16:00:00
296
转载 关于数据倾斜的解决方案
数据倾斜:并行处理的数据集中,某一部分的数据显著多于其他部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 spark中同一个stage的不同partition可以并行处理,而具有依赖关系的不同的stage之间只能串行处理。 一个stage可以包含N个task,这N个task可以并行...
2017-03-20 14:26:00
228
转载 Spark运行原理
1.宽依赖和窄依赖 map,filter、union等transformation操作后的RDD仅依赖于父RDD的固定分区,它们是窄依赖的;而groupByKey后的RDD的分区与父RDD所有的分区都有依赖关系,此时它们就是宽依赖的。join操作存在两种情况,如果分区仅仅依赖于父RDD的...
2017-03-14 11:13:00
91
转载 spark学习笔记
1.RDD操作 RDDS支持两种类型的操作 : transformations(转换):在一个已存在的dataset上创建一个新的dataset。 actions(动作):将在dataset上运行的计算结果返回到驱动程序。 例如 :map是一个通过让每个...
2017-03-13 18:56:00
93
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人