自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

tianyeshiye

天之道,损有余而补不足.人之道,则不然,损不足以奉有余.孰能有余以奉天下?唯有道者

  • 博客(29)
  • 收藏
  • 关注

转载 【Big Data 每日一题20180926】Structured Streaming 之状态存储解析

Structured Streaming 之状态存储解析[酷玩 Spark] Structured Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0)* 2017.10.02 update, Spark 2.1 全系列 √ (已发...

2018-09-27 21:54:28 654

转载 【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析

Structured Streaming 之 Event Time 解析[酷玩 Spark] Structured Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0)* 2017.10.02 update, Spark 2.1 全...

2018-09-27 21:54:22 529

转载 【Big Data 每日一题20180925】Structured Streaming 之 Sink 解析

Structured Streaming 之 Sink 解析[酷玩 Spark] Structured Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0)* 2017.10.02 update, Spark 2.1 全系列 √ (...

2018-09-25 22:04:07 564

转载 【Big Data 每日一题20180924】Structured Streaming 之 Source 解析

Structured Streaming 之 Source 解析[酷玩 Spark] Structured Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0)* 2017.10.02 update, Spark 2.1 全系列 √...

2018-09-24 23:29:40 191

转载 【Big Data 每日一题20180923】Structured Streaming 实现思路与实现概述

Structured Streaming 实现思路与实现概述[酷玩 Spark] Structured Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0)* 2017.10.02 update, Spark 2.1 全系列 √ (...

2018-09-24 23:23:54 244

转载 【Big Data 每日一题20180922】sparkstreaming同时消费多个topic的数据实现exactly-once的语义

最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.)...

2018-09-24 23:18:46 1525

转载 【Big Data 每日一题20180921】Spark 序列化问题

在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304) at org.apache.spark.util.Closu...

2018-09-20 23:17:59 96

转载 【Big Data 每日一题20180919】Spark内核分析之spark作业的三种提交方式

最近在研究Spark源码,顺便记录一下,供大家学习参考,如有错误,请批评指正。好,废话不多说,这一篇先来讲讲Spark作业提交流程的整体架构。第一种,基于Standalone的方式,整体架构如下图所示;基于Standalone架构图1.当向一个Standalone模式集群中提交一个Application的时候,第一步首先通过反射的机制创建一个DriverActor(这里指Driv...

2018-09-19 23:13:46 162

转载 【Big Data 每日一题20180920】org.apache.spark.SparkException: Task not serializable

出现“org.apache.spark.SparkException: Task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化1、问题描述及原因分析 在编写Spark程序中,由于在map,foreachPar...

2018-09-19 23:13:06 267

转载 【Big Data 每日一题】Spark开发性能调优总结

1. 分配资源调优Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark-submit shell脚本,里面调整对应的参数 常用参数/opt/modu...

2018-09-18 23:04:48 343

转载 【Big Data 每日一题20180918】 Hive  filter pushdown ? (英)

 转至元数据结尾由 Confluence Administrator创建, 最终由 Lefty Leverenz修改于 八月 02, 2014转至元数据起始Filter Pushdown Filter Pushdown Introduction Use Cases Components Involved Primary Filter Representatio...

2018-09-18 22:25:47 364

原创 【Big Data 每日一题20180917】数据本地化的几种级别

PROCESS_LOCAL:进程本地化,代码和数据在同一个进程中,也就是在同一个executor中;计算数据的task由executor执行,数据在executor的BlockManager中;性能最好(图1)RACK_LOCAL:机架本地化,数据和task在一个机架的两个节点上;数据需要通过网络在节点之间进行传输(图2)NODE_LOCAL:节点本地化,代码和数据在同一个节点中;比如说,...

2018-09-18 00:07:24 263

转载 【Big Data 每日一题20180916】Spark累加器(Accumulator)陷阱及解决办法

Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。 只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。Accumulator使用使用示...

2018-09-16 22:32:56 181

原创 【Big Data 每日一题20180915】Spark编码时,Static 变量慎用?

static变量最好不要用,应该使用Spark提供的广播变量和累加器Broadcast     Accumulator static变量会引发的问题:1、 类的static变量不会被序列化,序列化task的时候,值会丢失2、static变量保存在内存模型中的方法区,会影响(同一个Excuter的线程)其他task的值。3、演算子内使用外部变量,特别是 执行action(如输...

2018-09-16 22:32:49 791 1

转载 【Big Data 每日一题20180914】Spark性能调优九之常用算子调优

1.使用mapPartitions算子提高性能mapPartition的优点:使用普通的map操作,假设一个partition中有1万条数据,那么function就要被执行1万次,但是使用mapPartitions操作之后,function仅仅会被执行一次,显然性能得到了很大的提升,这个就没必要在多废话了。mapPartition的缺点:使用普通的map操作,调用一次function执行一...

2018-09-14 22:27:25 131

转载 【Big Data 每日一题20180913】Spark性能调优篇八之shuffle调优(重要)

本篇文章来介绍一个重量级的Spark调优机制,就是我们常说的shuffle调优。在讲解shuffle调优之前,我们先来明确一个概念,什么是shuffle操作?问题:什么是shuffle?答案:每个Spark作业启动运行的时候,首先Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段,并为每个stage创建一批Task,然后将这些Task分配...

2018-09-13 22:56:18 132

转载 【Big Data 每日一题20180912】Spark性能调优篇七之JVM相关参数调整

由于Spark程序是运行在JVM基础之上的,所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前,我们先通过一张图看一下JVM简单的内存划分情况。JVM内存划分图        关于JVM内存的深入知识在这里不赘述,请大家自行对相关知识进行补充。好,说回Spark,运行Spark作业的时候,JVM对会对Spark作业产生什么影响呢?答案很简单,如果数据量过大,一定...

2018-09-12 23:14:44 200

转载 【Big Data 每日一题20180911】Spark性能调优篇六之调节数据本地化等待时长

本篇我们讨论一下数据本地化等待时长调节的优化。在介绍关于本地化等待时长调节之前,我们先来看看数据本地化的运行原理吧。        Spark在Driver上对Application的每个task任务进行分配之前,都会先计算出每个task要计算的对应的数据分片的位置。Spark的task分配算法优先考虑将task分配到分片数据所在的节点,以此来避免网络间数据传输带来的性能消耗。但是在实际的生产...

2018-09-12 23:14:34 238

转载 【Big Data 每日一题20180910】Spark性能调优篇五之使用fastUtil工具包

今天再来介绍一个小的优化点,是一个通过使用fastutil工具包对数据格式进行优化。首先来明确一个东西,什么是fastutil?        fastutil是一个Java集合框架的扩展,通过实现Java集合的接口,提供了特殊类型的map,list等等。通过使用fastutil可以使得对象占用更小的内存,更快的存取速度;通过这两个特点,我们可以将Spark作业中用的一些map,list等结构...

2018-09-09 23:44:30 175

转载 【Big Data 每日一题20180909】Spark性能调优篇四之使用Kryo进行序列化操作

 接着上一篇文章,今天介绍一下通过使用Kryo这个东东来进一步降低网络IO的传输量和内存的占用率。在介绍Kryo之前,接下来我们先来对比一下默认的序列化和Kryo方式的序列化的性能(其实就是序列化后数据的体积)。默认的序列化:基于Java语言的Spark程序中,默认使用了ObjectInputStream和ObjectOutputStream对对象进行序列化操作的。这种默认序列化机制的好处在于...

2018-09-09 23:43:57 159

转载 【Big Data 每日一题20180908】Spark性能调优篇三之广播方式传输数据

接着之前的Spark调优系列文章,我们今天介绍一下通过广播的方式优化我们的Spark作业运行效率。在介绍文章之前,我们首先来分析一下我们Spark作业运行的时候每个task任务默认是怎么怎么工作的。好了,首先先来看一张图。默认task的工作流程图       上图是用户session分析模块中的按照时间比例随机抽取的session信息的集合(解释:这里是结合我项目中的一个点进行说明的,...

2018-09-09 23:43:18 174

转载 【Big Data 每日一题20180907】Spark性能调优篇二之重构RDD架构及RDD持久化

本片文章来聊聊一个Spark作业中RDD的重构,以及一些复用的RDD持久化的常用策略。首先给出两个RDD执行过程图形类型1如上图所示,当第一次对RDD2执行算子获得RDD3的时候,首先会从RDD1开始计算,然后执行RDD2,最后计算得到RDD3。对于RDD4同样会按照RDD3的流程去执行一遍RDD1和RDD2的两个算子,想想如果数据量非常大的话,那将是完全不敢想象的灾难。随后,我们...

2018-09-09 23:42:32 139

转载 【Big Data 每日一题20180906】Spark性能调优篇一之任务提交参数调整

写在前面的一些”废话“:最近在做spark的项目,虽然项目基本功能都实现了,但是在真正的成产环境中去运行,发现程序运行效率异常缓慢;迫于无奈(实际是自己都不忍直视了),所以决定对程序做一番优化操作。在网上查看了不上关于spark程序的优化方法,但是都比较分散不够全面,所以决定就自己编写的基于Java的spark程序,记录一下我所做过的一些优化操作,加深印象方面以后的项目调优使用。这是一个Spa...

2018-09-06 23:20:32 169

转载 【Big Data 每日一题20180905】Spark Shuffle FetchFailedException解决方案

在大规模数据处理中,这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0org.apache.spark.shuffle.FetchFailedException...

2018-09-05 23:42:55 333

原创 大牛博客

Spark 源码分析https://blog.csdn.net/u011564172/article/category/6576857/3过往记忆   ---   大数据马猴烧酒└(┐卍^o^)卍ドゥルルル   ---   架构、微服务Laurence的技术博客   ---   大数据、企业级应用架构董的博客  ---   大数据  (技术版本相对旧)微软、Google等...

2018-09-05 23:39:46 184

原创 【Big Data 每日一题20180904】ISR策略(in-sync Replica) ?

Leader会维护一个与其基本保持同步的Replica列表,该列表称为ISR(in-sync Replica) 如果一个Follower比Leader落后太多,或者超过一定时间未发起数据复制请求,则Leader将其从ISR中移除 当ISR中所有Replica都向Leader发送ACK时,Leader即Commit ...

2018-09-03 23:28:39 1083

原创 【Big Data 每日一题20180903】 Kafka的Zookeeper关系?

Zookeeper是一个开放源码的、高性能的协调服务,它用于Kafka的分布式应用。 Zookeeper主要用于在集群中不同节点之间进行通信 在Kafka中,它被用于提交偏移量,因此如果节点在任何情况下都失败了,它都可以从之前提交的偏移量中获取 除此之外,它还执行其他活动,如: leader检测、分布式同步、配置管理、识别新节点何时离开或连接、集群、节点实时状态等等。 ...

2018-09-03 23:21:46 121

原创 【Big Data 每日一题20180902】 Kafka 最大的特点?

最大的特点: 系统间的解耦   和  高吞吐能力解耦 各位系统之间通过消息系统这个统一的接口交换数据,无须了解彼此的存在  冗余 部分消息系统具有消息持久化能力,可规避消息处理前丢失的风险  扩展 消息系统是统一的数据接口,各系统可独立扩展  峰值处理能力消息系统可顶住峰值流量,业务系统可根据处理能力从消息系统中获取并处理对应量的请求  可恢复性 系统中部分组件失效并不会影响整个系统,...

2018-09-03 23:17:09 131

原创 【Big Data 每日一题20180901】 Kafka相对传统技术有什么优势

Apache Kafka与传统的消息传递技术相比优势之处在于:快速:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读写操作。可伸缩:在一组机器上对数据进行分区和简化,以支持更大的数据持久:消息是持久性的,并在集群中进行复制,以防止数据丢失。设计:它提供了容错保证和持久性...

2018-09-03 23:14:21 1685

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除