Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段 本文于2017-07-16号书写 Spark任务优化 本节主要从内存调优、高性能算子、数据结构优...

2018-07-24 11:15:33

阅读数 3766

评论数 0

Spark cache/persist区别和cache使用误区分析

Spark cache的用法及其误区: 一、使用Cache注意下面三点 (1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。 (2)cache不是一个action,运行它的时候没有执行一个作业。 (3)...

2018-01-11 17:59:00

阅读数 7279

评论数 4

spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

1、背景:     控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令: hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2...

2017-11-23 16:37:49

阅读数 3624

评论数 7

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决办 1、错误描述: Exception in thread "main" ...

2017-10-11 16:41:56

阅读数 4379

评论数 1

Hadoop内存溢出(OOM)分类、参数调优化(代码模拟内存溢出类型并分析原因)

MapReduce作业运行过程中内存溢出错误分类 1、        Mapper/Reducer阶段JVM内存溢出(一般都是堆) 1)       JVM堆(Heap)内存溢出:堆内存不足时,一般会抛出如下异常: 第一种:“java.lang.OutOfMemoryError:” GC over...

2017-07-15 17:16:45

阅读数 4856

评论数 0

JVM架构和GC垃圾回收机制(JVM面试不用愁)

JVM架构和GC垃圾回收机制详解 JVM架构图分析 下图:参考网络+书籍,如有侵权请见谅 (想了解Hadoop内存溢出请看: Hadoop内存溢出(OOM)分类、参数调优化) JVM被分为三个主要的子系统 (1)类加载器子系统(2)运行时数据区(3)执行引擎 1. 类加载器子系统 ...

2017-06-10 16:49:15

阅读数 40090

评论数 7

MapReduce过程详解及其性能优化

废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭...

2017-05-16 21:40:07

阅读数 19649

评论数 5

Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化 对spark广播、累加器和RDD持久化的介绍,并且通过代码实战演示

2017-02-19 21:02:28

阅读数 2384

评论数 0

箱形图(python画箱线图)

学习笔记 目录 箱形图 价值 局限性 Python画图 箱形图 如下灰色框里的就是箱形图(英文:Box plot):又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。 箱形图最大的优点就是不受异常值的影响,可以以一种相对稳定的方式...

2019-04-18 21:34:17

阅读数 185

评论数 0

上亿条数据,如何比对并发现两个表数据差异

目录 一、背景 二、分析流程 三、验数方法 3.1 数据量级比对 3.2 一致性比对 3.2.1勾稽验证+md5方法 3.2.2 暴力比对法 3.3差异数据发现 四、总结 一、背景 做数据,经常遇到数据验证,很烦很枯燥,即耗时又耗人,但又必须去做。如何去做数据验证,并标准化整...

2019-04-13 12:22:17

阅读数 49

评论数 0

hive表新增字段和字段注释修改

hive表新增字段,修改字段的注释

2018-01-15 17:24:50

阅读数 30203

评论数 0

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30

阅读数 1078

评论数 0

Spark统一内存管理:UnifiedMemoryManager

@DT大数据梦工厂 Spark统一内存管理:UnifiedMemoryManager,内存管理图: Spark静态内存管理:StaticMemoryManager请看:http://blog.csdn.net/aijiudu/article/details/77885953 一、统一内存...

2017-09-19 17:39:09

阅读数 1319

评论数 0

Spark静态内存管理:StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小 。这两个区域是完全分离的,使得两者都不能从另一个借用内存。 例如Executor的可...

2017-09-07 20:00:58

阅读数 452

评论数 0

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40

阅读数 725

评论数 0

Yarn的基本工作流程

Yarn基本工作流程图和步骤解释

2017-07-15 23:11:33

阅读数 1111

评论数 0

第五课:彻底精通Scala隐式转换和并发编程及Spark源码阅读

彻底精通Scala隐式转换和并发编程及Spark源码阅读

2016-12-12 13:22:17

阅读数 389

评论数 0

第94课:Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优等

为什么要队列设置??? 因为Hadoop大数据生态系统上面会运行很多作业,为了更好的管理资源限制的要求Hadoop提出了队列,队列就是不同类型资源分配和使用的标签。 JVM重用 Hadoop的JVM是可以重用的,相当于spark的线程的重用。JVM 重用在有很多小文件的时候非常有用 hi...

2016-12-10 18:19:57

阅读数 2833

评论数 0

第93课:Hive中的内置函数、UDF、UDAF实战

Hive中的内置函数、UDF、UDAF实战

2016-12-10 18:17:36

阅读数 756

评论数 0

第92课,Hive中的Array,Map,Struct及自定义数据类型案例实战。

Hive中的Array,Map,Struct及自定义数据类型案例实战。

2016-12-10 18:13:43

阅读数 2101

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭