[spark 面试]Spark解决数据倾斜问题

一、前述 数据倾斜问题是大数据中的头号问题,所以解决数据倾斜尤为重要,本文只针对几个常见的应用场景做些分析 。   二。具体方法    1、使用Hive ETL预处理数据 方案适用场景: 如果导致数据倾斜的是Hive表。如果该Hive表中的数据本身很不均匀(比如某个key对应了100...

2018-08-31 20:24:03

阅读数 543

评论数 1

[spark 面试]数据倾斜

一.首先明白招聘中“拥有大型项目/海量数据处理经验的意思”?     这个实质的意思不是你开发出大型项目和海量数据进行了处理的;它表达的意思是你是否有再大型项目/海量数据中的调优经验,而这种调优经验又必须再理解和阅读大量源码的基础上才能实现的。所以这句话转化的意思就是你是否有阅读源码和性能调优的...

2018-08-31 19:18:50

阅读数 303

评论数 0

[spark streaming]Driver容错安全性

内容 : ReceivedBlockTracker容错安全性 DStreamGraph和JobGenerator容错安全性      Driver的安全性主要从Spark Streaming自己运行机制的角度考虑的,如对源数据保存方面使用了WAL方式,驱动层面的容错安全主要使用的是Check...

2018-08-30 21:12:25

阅读数 250

评论数 0

[spark streaming]Executor容错安全性

一、Spark Streaming 数据安全性的考虑: Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行。所以这就涉及到一个非常重要的问题数据安全性。 Spark Streaming是基于Spark Core之上的,如果能够确保数据安全可好的话,在...

2018-08-30 17:10:13

阅读数 137

评论数 0

[spark streaming]Driver之ReceiverTracker技术内幕源码解密

上篇文章详细解析了Receiver不断接收数据的过程,在Receiver接收数据的过程中会将数据的元信息发送给ReceiverTracker:     本文将详细解析ReceiverTracker的的架构设计和具体实现 源码解释: This class manages the ex...

2018-08-29 00:07:37

阅读数 63

评论数 0

[spark streaming]Receiver数据接收全过程详解

一、Receiver启动过程回顾 如图,从ReceiverTracker的start方法开始,调用launchReceivers()方法,给endpoint发送消息,endpoint.send(StartAllReceivers(receivers)),endpoint就是ReceiverT...

2018-08-29 00:05:37

阅读数 731

评论数 0

[spark streaming]Receiver工作内幕源码分析

原创文章,转载请注明:转载自 听风居士博客(http://www.cnblogs.com/zhouyf/)       Spark streaming 程序需要不断接收新数据,然后进行业务逻辑处理,而用于接受数据的就是Recever。显然Receiver的正常运行对应整个Spark Stream...

2018-08-29 00:03:35

阅读数 170

评论数 0

[spark streaming]Job动态生成和深度思考

本期内容: 1、Spark Streaming Job生成深度思考 2、Spark Streaming Job生成源码解析 一、Spark Streaming Job生成深度思考 源码解析: 1. 在大数据处理场景中,如果不是流处理的话,一般会有定时任务。例如10分钟触发一次,1个小时触...

2018-08-28 19:36:56

阅读数 312

评论数 0

[spark streaming]JobScheduler内幕实现和深度思考

本期内容: 1,JobScheduler内幕实现 2,JobScheduler深度思考   摘要:JobScheduler是Spark Streaming整个调度的核心,其地位相当于Spark Core上的调度中心中的DAGScheduler!           一、JobSched...

2018-08-28 19:23:59

阅读数 109

评论数 0

[spark streaming]生成RDD并执行Spark Job源码内幕解密

本博文主要包含以下内容: DStream产生RDD的案例实战演示 DStream作为RDD模板的原理机制 常见DStream生产RDD源码解密 这种常见的DStream包含三种类型,一种是输入的级别的InputDStream,第二种transformationDStream,第三种输出级别的...

2018-08-28 19:17:05

阅读数 289

评论数 0

[spark streaming] DStream 和 DStreamGraph 解析

前言 Spark Streaming 是基于Spark Core将流式计算分解成一系列的小批处理任务来执行。 在Spark Streaming里,总体负责任务的动态调度是JobScheduler,而JobScheduler有两个很重要的成员:JobGenerator和 ReceiverTrac...

2018-08-28 16:45:59

阅读数 103

评论数 0

[spark streaming] 架构和运行机制

本期内容:   1. Spark Streaming架构   2. Spark Streaming运行机制        3.解密Spark Streaming Job架构和运行机制        4.解密Spark Streaming 容错架构和运行机制   Spark大数据分析框架的...

2018-08-28 11:47:19

阅读数 785

评论数 0

Spark性能优化第九季之Spark Tungsten内存使用彻底解密

一:Tungsten中到底什么是Page?  1.在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack,List等),从OS层面上讲,Page代表了一个内存块,在Page里面可以存放数据,在OS中会存放很多不同的Page,当要获得数据的时候首先要定位具体是哪个Page中...

2018-08-28 10:44:17

阅读数 132

评论数 0

Spark性能优化第八季之Spark Tungsten-sort Based Shuffle

一:使用Tungsten功能  1, 如果想让您的程序使用Tungsten的功能,可以配置:  Spark.Shuffle.Manager = tungsten-sort    Spark在钨丝计划下要管理两种类型的内存存储方式:堆内和堆外。为了管理他们,所以搞了一个Page。  堆外:指针直...

2018-08-28 09:49:29

阅读数 61

评论数 0

Spark性能优化第七季之Spark 钨丝计划

一:“钨丝计划”产生的本质原因 1,Spark作为一个一体化多元化的(大)数据处理通用平台,性能一直是其根本性的追求之一,Spark基于内存迭代(部分基于磁盘迭代)的模型极大的满足了人们对分布式系统处理性能的渴望,但是有Spark事采用Scala+Java语言编写的所以运行在JVM平台,当然JV...

2018-08-28 09:47:02

阅读数 74

评论数 0

Spark性能优化第六季

一:Shuffle性能调优 1,问题:Shuffle output file lost?真正的原因是GC导致的!!!如果GC尤其是Full GC产生通常会导致线程停止工作,这个时候下一个Stage的Task在默认情况下就会尝试重试来获取数据,一般重试3次每次重试的时间为5s,也就是说默认情况下1...

2018-08-28 09:46:11

阅读数 115

评论数 0

Spark性能优化第五季-数据本地性调优

一:性能优化之数据本地性 1、数据本地性对分布式系统的性能而言是一件最为重要的情况之一,程序运行本身饮食代码和数据两部分,单机版本一般情况下很少考虑数据本地性的问题(因为数据在本地),但是对于单机版本的程序,由于数据本性有PROCESS_LOCAL和NODE_LOCAL之分, 所以,尽量让数据处于...

2018-08-28 09:45:23

阅读数 56

评论数 0

Spark性能优化第四季

一:Spark性能调优之序列化 1,之所以进行序列化,最重要的原因是内存空间有限(减少GC的压力,最大化的避免Full GC的产生,因为一旦产生Full GC则整个Task处于停止状态!!!)、减少磁盘IO的压力、减少网络IO的压力; 2,什么时候会必要的产生序列化或反序列化呢?发生磁盘IO和...

2018-08-27 12:19:55

阅读数 130

评论数 0

Spark性能优化指南——数据倾斜和shuffle调优

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时S...

2018-08-27 12:07:28

阅读数 65

评论数 0

Spark性能优化第三季

Spark性能优化第三季 一、Spark程序数据结构的优化  1、数据结构优化  2、内存诊断  3、Persist和Checkpoint  1、Java的对象:对象头是16个字节(例如指向对象的指针等元数据信息),如果对象中只有一个int的property,则此时会占据20个字节,也就是说对象...

2018-08-27 11:48:04

阅读数 117

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭