2018年09月_天地不仁以万物为刍狗

转载【Big Data 每日一题20180926】Structured Streaming 之状态存储解析

Structured Streaming 之状态存储解析 [酷玩 Spark] Structured Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围： * 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发...

2018-09-27 21:54:28 654

转载【Big Data 每日一题20180927】Structured Streaming 之 Event Time 解析

Structured Streaming 之 Event Time 解析 [酷玩 Spark] Structured Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围： * 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0) * 2017.10.02 update, Spark 2.1 全...

2018-09-27 21:54:22 529

转载【Big Data 每日一题20180925】Structured Streaming 之 Sink 解析

Structured Streaming 之 Sink 解析 [酷玩 Spark] Structured Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围： * 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (...

2018-09-25 22:04:07 564

转载【Big Data 每日一题20180924】Structured Streaming 之 Source 解析

Structured Streaming 之 Source 解析 [酷玩 Spark] Structured Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围： * 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √...

2018-09-24 23:29:40 191

转载【Big Data 每日一题20180923】Structured Streaming 实现思路与实现概述

Structured Streaming 实现思路与实现概述 [酷玩 Spark] Structured Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围： * 2017.07.11 update, Spark 2.2 全系列 √ (已发布：2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (...

2018-09-24 23:23:54 244

转载【Big Data 每日一题20180922】sparkstreaming同时消费多个topic的数据实现exactly-once的语义

最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.) ...

2018-09-24 23:18:46 1525

转载【Big Data 每日一题20180921】Spark 序列化问题

在Spark应用开发中，很容易出现如下报错： org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:304) at org.apache.spark.util.Closu...

2018-09-20 23:17:59 96

转载【Big Data 每日一题20180919】Spark内核分析之spark作业的三种提交方式

最近在研究Spark源码，顺便记录一下，供大家学习参考，如有错误，请批评指正。好，废话不多说，这一篇先来讲讲Spark作业提交流程的整体架构。第一种，基于Standalone的方式，整体架构如下图所示；基于Standalone架构图 1.当向一个Standalone模式集群中提交一个Application的时候，第一步首先通过反射的机制创建一个DriverActor（这里指Driv...

2018-09-19 23:13:46 162

转载【Big Data 每日一题20180920】org.apache.spark.SparkException: Task not serializable

出现“org.apache.spark.SparkException: Task not serializable"这个错误，一般是因为在map、filter等的参数使用了外部的变量，但是这个变量不能序列化。特别是当引用了某个类（经常是当前类）的成员函数或变量时，会导致这个类的所有成员（整个类）都需要支持序列化 1、问题描述及原因分析在编写Spark程序中，由于在map，foreachPar...

2018-09-19 23:13:06 268

转载【Big Data 每日一题】Spark开发性能调优总结

1. 分配资源调优 Spark性能调优的王道就是分配资源,即增加和分配更多的资源对性能速度的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的,当公司资源有限,能分配的资源达到顶峰之后,那么才去考虑做其他的调优如何分配及分配哪些资源在生产环境中,提交spark作业时,使用spark-submit shell脚本,里面调整对应的参数常用参数 /opt/modu...

2018-09-18 23:04:48 344

转载【Big Data 每日一题20180918】 Hive filter pushdown ？ (英)

转至元数据结尾由 Confluence Administrator创建, 最终由 Lefty Leverenz修改于八月 02, 2014 转至元数据起始 Filter Pushdown Filter Pushdown Introduction Use Cases Components Involved Primary Filter Representatio...

2018-09-18 22:25:47 364

原创【Big Data 每日一题20180917】数据本地化的几种级别

PROCESS_LOCAL：进程本地化，代码和数据在同一个进程中，也就是在同一个executor中；计算数据的task由executor执行，数据在executor的BlockManager中；性能最好（图1） RACK_LOCAL：机架本地化，数据和task在一个机架的两个节点上；数据需要通过网络在节点之间进行传输（图2） NODE_LOCAL：节点本地化，代码和数据在同一个节点中；比如说，...

2018-09-18 00:07:24 263

转载【Big Data 每日一题20180916】Spark累加器(Accumulator)陷阱及解决办法

Accumulator简介 Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task只能对其做增加操作（使用 +=）。你也可以在为Accumulator命名（不支持Python），这样就会在spark web ui中显示，可以帮助你了解程序运行的情况。 Accumulator使用使用示...

2018-09-16 22:32:56 181

原创【Big Data 每日一题20180915】Spark编码时，Static 变量慎用？

static变量最好不要用，应该使用Spark提供的广播变量和累加器 Broadcast Accumulator static变量会引发的问题： 1、类的static变量不会被序列化，序列化task的时候，值会丢失 2、static变量保存在内存模型中的方法区，会影响(同一个Excuter的线程)其他task的值。 3、演算子内使用外部变量，特别是执行action(如输...

2018-09-16 22:32:49 791 1

转载【Big Data 每日一题20180914】Spark性能调优九之常用算子调优

1.使用mapPartitions算子提高性能 mapPartition的优点：使用普通的map操作，假设一个partition中有1万条数据，那么function就要被执行1万次，但是使用mapPartitions操作之后，function仅仅会被执行一次，显然性能得到了很大的提升，这个就没必要在多废话了。 mapPartition的缺点：使用普通的map操作，调用一次function执行一...

2018-09-14 22:27:25 131

转载【Big Data 每日一题20180913】Spark性能调优篇八之shuffle调优（重要）

本篇文章来介绍一个重量级的Spark调优机制，就是我们常说的shuffle调优。在讲解shuffle调优之前，我们先来明确一个概念，什么是shuffle操作？问题：什么是shuffle？答案：每个Spark作业启动运行的时候，首先Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批Task，然后将这些Task分配...

2018-09-13 22:56:18 132

转载【Big Data 每日一题20180912】Spark性能调优篇七之JVM相关参数调整

由于Spark程序是运行在JVM基础之上的，所以我们这一篇来讨论一下关于JVM的一些优化操作。在开始JVM调优操作之前，我们先通过一张图看一下JVM简单的内存划分情况。 JVM内存划分图关于JVM内存的深入知识在这里不赘述，请大家自行对相关知识进行补充。好，说回Spark，运行Spark作业的时候，JVM对会对Spark作业产生什么影响呢？答案很简单，如果数据量过大，一定...

2018-09-12 23:14:44 200

转载【Big Data 每日一题20180911】Spark性能调优篇六之调节数据本地化等待时长

本篇我们讨论一下数据本地化等待时长调节的优化。在介绍关于本地化等待时长调节之前，我们先来看看数据本地化的运行原理吧。 Spark在Driver上对Application的每个task任务进行分配之前，都会先计算出每个task要计算的对应的数据分片的位置。Spark的task分配算法优先考虑将task分配到分片数据所在的节点，以此来避免网络间数据传输带来的性能消耗。但是在实际的生产...

2018-09-12 23:14:34 238

转载【Big Data 每日一题20180910】Spark性能调优篇五之使用fastUtil工具包

今天再来介绍一个小的优化点，是一个通过使用fastutil工具包对数据格式进行优化。首先来明确一个东西，什么是fastutil？ fastutil是一个Java集合框架的扩展，通过实现Java集合的接口，提供了特殊类型的map，list等等。通过使用fastutil可以使得对象占用更小的内存，更快的存取速度；通过这两个特点，我们可以将Spark作业中用的一些map,list等结构...

2018-09-09 23:44:30 175

转载【Big Data 每日一题20180909】Spark性能调优篇四之使用Kryo进行序列化操作

接着上一篇文章，今天介绍一下通过使用Kryo这个东东来进一步降低网络IO的传输量和内存的占用率。在介绍Kryo之前，接下来我们先来对比一下默认的序列化和Kryo方式的序列化的性能（其实就是序列化后数据的体积）。默认的序列化：基于Java语言的Spark程序中，默认使用了ObjectInputStream和ObjectOutputStream对对象进行序列化操作的。这种默认序列化机制的好处在于...

2018-09-09 23:43:57 159

转载【Big Data 每日一题20180908】Spark性能调优篇三之广播方式传输数据

接着之前的Spark调优系列文章，我们今天介绍一下通过广播的方式优化我们的Spark作业运行效率。在介绍文章之前，我们首先来分析一下我们Spark作业运行的时候每个task任务默认是怎么怎么工作的。好了，首先先来看一张图。默认task的工作流程图上图是用户session分析模块中的按照时间比例随机抽取的session信息的集合（解释：这里是结合我项目中的一个点进行说明的，...

2018-09-09 23:43:18 174

转载【Big Data 每日一题20180907】Spark性能调优篇二之重构RDD架构及RDD持久化

本片文章来聊聊一个Spark作业中RDD的重构，以及一些复用的RDD持久化的常用策略。首先给出两个RDD执行过程图形类型1 如上图所示，当第一次对RDD2执行算子获得RDD3的时候，首先会从RDD1开始计算，然后执行RDD2，最后计算得到RDD3。对于RDD4同样会按照RDD3的流程去执行一遍RDD1和RDD2的两个算子，想想如果数据量非常大的话，那将是完全不敢想象的灾难。随后，我们...

2018-09-09 23:42:32 139

转载【Big Data 每日一题20180906】Spark性能调优篇一之任务提交参数调整

写在前面的一些”废话“：最近在做spark的项目，虽然项目基本功能都实现了，但是在真正的成产环境中去运行，发现程序运行效率异常缓慢；迫于无奈（实际是自己都不忍直视了），所以决定对程序做一番优化操作。在网上查看了不上关于spark程序的优化方法，但是都比较分散不够全面，所以决定就自己编写的基于Java的spark程序，记录一下我所做过的一些优化操作，加深印象方面以后的项目调优使用。这是一个Spa...

2018-09-06 23:20:32 169

转载【Big Data 每日一题20180905】Spark Shuffle FetchFailedException解决方案

在大规模数据处理中，这是个比较常见的错误。报错提示 SparkSQL shuffle操作带来的报错 org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0 org.apache.spark.shuffle.FetchFailedException...

2018-09-05 23:42:55 333

原创大牛博客

Spark 源码分析 https://blog.csdn.net/u011564172/article/category/6576857/3 过往记忆 --- 大数据马猴烧酒└(┐卍^o^)卍ﾄﾞｩﾙﾙﾙ --- 架构、微服务 Laurence的技术博客 --- 大数据、企业级应用架构董的博客 --- 大数据（技术版本相对旧）微软、Google等...

2018-09-05 23:39:46 184

原创【Big Data 每日一题20180904】ISR策略(in-sync Replica) ？

Leader会维护一个与其基本保持同步的Replica列表，该列表称为ISR（in-sync Replica）如果一个Follower比Leader落后太多，或者超过一定时间未发起数据复制请求，则Leader将其从ISR中移除当ISR中所有Replica都向Leader发送ACK时，Leader即Commit ...

2018-09-03 23:28:39 1083

原创【Big Data 每日一题20180903】 Kafka的Zookeeper关系？

Zookeeper是一个开放源码的、高性能的协调服务，它用于Kafka的分布式应用。 Zookeeper主要用于在集群中不同节点之间进行通信在Kafka中，它被用于提交偏移量，因此如果节点在任何情况下都失败了，它都可以从之前提交的偏移量中获取除此之外，它还执行其他活动，如: leader检测、分布式同步、配置管理、识别新节点何时离开或连接、集群、节点实时状态等等。 ...

2018-09-03 23:21:46 121

原创【Big Data 每日一题20180902】 Kafka 最大的特点？

最大的特点：系统间的解耦和高吞吐能力解耦各位系统之间通过消息系统这个统一的接口交换数据，无须了解彼此的存在冗余部分消息系统具有消息持久化能力，可规避消息处理前丢失的风险扩展消息系统是统一的数据接口，各系统可独立扩展峰值处理能力消息系统可顶住峰值流量，业务系统可根据处理能力从消息系统中获取并处理对应量的请求可恢复性系统中部分组件失效并不会影响整个系统，...

2018-09-03 23:17:09 131

原创【Big Data 每日一题20180901】 Kafka相对传统技术有什么优势

Apache Kafka与传统的消息传递技术相比优势之处在于：快速:单一的Kafka代理可以处理成千上万的客户端，每秒处理数兆字节的读写操作。可伸缩:在一组机器上对数据进行分区和简化，以支持更大的数据持久:消息是持久性的，并在集群中进行复制，以防止数据丢失。设计:它提供了容错保证和持久性...

2018-09-03 23:14:21 1685

tianyeshiye