hive数据倾斜

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive...

2018-01-10 20:37:05

阅读数 210

评论数 0

SparkCore杂记二

这篇博客主要讲解Spark中任务shuffle与persistence, 首先来说说shuffle洗牌,学过hadoop的同学应该都了解mapreduce,每一个mapreduce任务都要经过一次shuffle,简单的理解shuffle就是根据key将数据进行重新分布,这个过程会发生文件IO/网络...

2017-11-08 20:36:59

阅读数 165

评论数 0

SparkCore杂记一

接触Spark也有一段时间了,最开始一直都是上网看一些博客,自己搭建个虚拟机倒腾,都是一些零散的学习,回头想想还是有必要系统性的学习、理解一遍,本系列博客将会参照spark 官方文档上来一一讲解,但是也不会仅仅只是翻译(翻译也不全面),其中还会加上一些自己的理解、在项目中的一些所见所闻,希望自己能...

2017-11-08 18:01:01

阅读数 308

评论数 0

kafka多线程消费及处理和手动提交处理方案设计

kafka与其他消息队列不同的是, kafka的消费者状态由外部( 消费者本身或者类似于Zookeeper之类的外部存储 )进行维护, 所以kafka的消费就更加灵活, 但是也带来了很多的问题, 因为客户端消费超时被判定挂掉而消费者重新分配分区, 导致重复消费, 或者客户端挂掉而导致重复消费等问题...

2017-10-16 19:13:59

阅读数 1965

评论数 0

Kafka 0.9 新版本consumer客户端使用介绍

翻译自:  https://www.confluent.io/blog/tutorial-getting-started-with-the-new-apache-kafka-0-9-consumer-client/ kafka最初时开发时, 所带的producer和consumer cli...

2017-10-16 18:55:39

阅读数 812

评论数 0

sparkStreaming+kafka+hbase实战练习一

这个需求是是按照实际工作中的项目改写的一个例子。                业务需求: 1. 实时统计某市银行流水交易总额                                    2. 实时统计某市银行某地区的流水交易总额                             ...

2017-08-05 14:26:03

阅读数 8728

评论数 15

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析 原文  http://josh-persistence.iteye.com/blog/2161848 第一部分:工具介绍部分: 现实企业级Java开发中,有时候我们会碰到下面这...

2017-07-28 21:33:07

阅读数 2544

评论数 0

Spark调优之Shuffle调优

shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性...

2017-06-13 09:50:43

阅读数 331

评论数 0

Spark调优之数据倾斜调优

目录(?)[-] 前言1数据倾斜调优 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况 2数据倾斜的解决方案 解决方案一使用Hive ETL预处理数据解决方案二过滤少数...

2017-06-13 09:48:53

阅读数 218

评论数 0

Spark调优之资源调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资...

2017-06-13 09:46:02

阅读数 304

评论数 0

Spark调优之开发调优

目录(?)[-] 前言开发调优 原则一避免创建重复的RDD原则二尽可能复用同一个RDD 原则三对多次使用的RDD进行持久化 原则四尽量避免使用shuffle类算子原则五使用map-side预聚合的shuffle操作原则六使用高性能的算子原则七广播大变量原则八使用Kryo优化序列化性能原...

2017-06-13 09:41:02

阅读数 278

评论数 0

spark 内存管理

从Spark 1.6版本开始,Spark采用Unified Memory Management这样一种新的内存管理模型。 Spark中的内存使用分为两部分:执行(execution)与存储(storage)。执行内存主要用于shuffles、joins、sorts和aggregations,...

2017-06-13 09:36:21

阅读数 321

评论数 0

Spark 中shuffle原理与调优

shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性...

2017-06-08 13:56:49

阅读数 307

评论数 0

Sprak RDD缓存

转载:https://www.iteblog.com/archives/1532.html 我们知道,Spark相比Hadoop最大的一个优势就是可以将数据cache到内存,以供后面的计算使用。本文将对这部分的代码进行分析。   我们可以通过rdd.persist()或rdd.cach...

2017-06-05 18:00:32

阅读数 323

评论数 0

Spark RDD

转载:http://www.infoq.com/cn/articles/spark-core-rdd/ 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine...

2017-06-05 17:53:23

阅读数 218

评论数 0

Spark 容错机制

转载:http://www.jianshu.com/p/99ebcc7c92d3    引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络...

2017-06-05 17:44:57

阅读数 270

评论数 0

HDFS缓存与DistributedCache

转载:http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/      http://www.tuicool.com/articles/zErmAzF    HDFS提供了一个高效的缓存加速...

2017-06-05 15:25:38

阅读数 522

评论数 0

Hadoop yarn任务调度策略介绍

转载:  https://www.iteblog.com/archives/1536.html 本文将介绍Hadoop YARN提供的三种任务调度策略:FIFO Scheduler,Capacity Scheduler 和 Fair Scheduler。 FIFO Scheduler ...

2017-06-05 10:16:18

阅读数 466

评论数 0

yarn 资源配置

转载:     https://www.iteblog.com/archives/1945.html   http://www.tuicool.com/articles/Rf6v6j  YARN集群的每个slave节点都运行了名为NodeManager的守护进程,而NodeManager进程...

2017-06-05 10:09:23

阅读数 729

评论数 0

Kafka深度解析,众人推荐,精彩好文!

作者: Jason Guo 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到...

2017-02-09 16:46:05

阅读数 494

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭