Spark
文章平均质量分 81
野狼e族
忙是一种好事
展开
-
Spark性能优化篇四:shuffle调优
Spark性能优化篇四:shuffle调优shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整...转载 2018-05-28 17:45:43 · 194 阅读 · 0 评论 -
spark 广播变量的设计和实现
spark 官网上对 广播变量的描述Broadcast variables allow the programmer to keep a read-only variable cached on each machinerather than shipping a copy of it with tasks. They can be used, for example, to give ev...原创 2019-03-28 21:18:59 · 2764 阅读 · 0 评论 -
sparksql执行流程分析
Spark sql是spark内部最核心,也是社区最活跃的组件。Spark SQL支持在Spark中执行SQL,或者HiveQL的关系查询表达式。列式存储的类RDD(DataSet/DataFrame)数据类型以及对sql语句的支持使它更容易上手,同时,它对数据的抽取、清洗的特性,使它广泛的用于etl,甚至是机器学习领域。因此,saprk sql较其他spark组件,获得了更多的使用者。...原创 2019-03-28 21:12:17 · 3297 阅读 · 0 评论 -
Flume 、Kafka 与SparkStreaming 集成编程
Flume 、Kafka 与SparkStreaming 集成编程一、Kafka与SparkStreaming 集成编程1、程序pull方式,可靠Recerver ,工作常用com.imooc.spark.FlumePullWordCount.scalapackage com.imooc.sparkimport org.apache.spark.SparkConfimport org.apache...原创 2018-05-28 18:03:00 · 235 阅读 · 0 评论 -
maven 对spark 源码进行编译(基于Centos 7 )
maven 对spark 源码进行编译(基于Centos 7 )1 、写在前面的话 有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示: Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能...原创 2018-05-28 18:02:00 · 1172 阅读 · 0 评论 -
Spark 作业提交
Spark 作业提交一、作业打包jar1、工程目录结构2、不同运行模式的打包方式 Local模式与Yarn模式不同就在于:Local模式运行时jar包仅在本地存在,而Yarn模式需要在每台从机的环境上都要相同的jar包,因此在Yarn 模式打jar包时,需要将pom.xml中依赖的 所有jar包一起打进去。 (1)Local 模式对maven 工程进行编译为jar 文件 mv...原创 2018-05-28 17:59:48 · 5122 阅读 · 0 评论 -
Spark快速大数据分析要点
Spark快速大数据分析要点1、默认情况下,Spark 的 RDD 会在你每次对它们进行行动操作时重新计算。如果想在多个行动操作中重用同一个 RDD,可以使用 RDD.persist() 让 Spark 把这个数据以序列化的形式缓存在 JVM 的堆空间中。我们可以让 Spark 把数据持久化到许多不同的地方。在第一次对持久化的 RDD 计算之后,Spark 会把 RDD 的内容保存到内存中(以分区...原创 2018-05-24 10:14:55 · 2289 阅读 · 0 评论 -
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。【默认情况下split与block是一对一的,而split又与RDD中的partition对应】输入可能以多个文件的形式存储在HDFS上,...原创 2018-05-24 10:15:49 · 683 阅读 · 0 评论 -
Spark性能优化篇一:资源调优
Spark性能优化篇一:资源调优 所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数,每个参数都对应着作业运行原理中的某个部分,我们同时也给出了一个调优的参考值。num-executors参数说明:该参数用于设置Spark作业总共要用多少个Exe...转载 2018-05-28 17:43:45 · 239 阅读 · 0 评论 -
Spark性能优化篇二: 开发调优
Spark性能优化篇二: 开发调优1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很...转载 2018-05-28 17:44:36 · 160 阅读 · 0 评论 -
Spark性能优化篇三:数据倾斜调优
Spark性能优化篇三:数据倾斜调优前言 继 Spark性能优化篇二: 开发调优和 Spark性能优化篇一:资源调优讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。1.数据倾斜调优调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,...转载 2018-05-28 17:45:16 · 198 阅读 · 0 评论 -
Spark RDD上的map operators是如何pipeline起来的
问题 :作用在一个RDD/DataFrame上的连续的多个map是在对数据的一次循环遍历中完成的还是需要多次循环?回答:不需要多次循环,spark会将多个map操作pipeline起来apply到rdd partition的每个data element上。我们从DAGScheduler的submitStage方法开始,分析一下map operators(包括map, filter, flatM...转载 2019-03-28 21:25:05 · 225 阅读 · 0 评论