Spark处理百亿规模数据优化实战

本优化是生产环境下用Spark处理百亿规模数据的一些优化实战,并成功将程序的速度提升一倍(涉及到敏感信息本文在2018-07-04号将其删除,阅读上可能显得不完整)下面介绍一些基本的优化手段 本文于2017-07-16号书写 Spark任务优化 本节主要从内存调优、高性能算子、数据结构优...

2018-07-24 11:15:33

阅读数 4134

评论数 0

Spark cache/persist区别和cache使用误区分析

Spark cache的用法及其误区: 一、使用Cache注意下面三点 (1)cache之后一定不能立即有其它算子,不能直接去接算子。因为在实际工作的时候,cache后有算子的话,它每次都会重新触发这个计算过程。 (2)cache不是一个action,运行它的时候没有执行一个作业。 (3)...

2018-01-11 17:59:00

阅读数 7660

评论数 4

spark 读取ORC文件时间太长(计算Partition时间太长)且产出orc单个文件中stripe个数太多问题解决方案

1、背景:     控制上游文件个数每天7000个,每个文件大小小于256M,50亿条+,orc格式。查看每个文件的stripe个数,500个左右,查询命令: hdfs fsck viewfs://hadoop/nn01/warehouse/…….db/……/partition_date=2...

2017-11-23 16:37:49

阅读数 3820

评论数 7

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决

spark2.2错误 java.lang.UnsupportedOperationException: No Encoder found for org.apache.spark.sql.Row解决办 1、错误描述: Exception in thread "main" ...

2017-10-11 16:41:56

阅读数 4618

评论数 1

Spark cache和persist使用场景和区别、广播和累加器使用方式和原理

spark广播、累加器和RDD持久化 对spark广播、累加器和RDD持久化的介绍,并且通过代码实战演示

2017-02-19 21:02:28

阅读数 2416

评论数 0

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

Spark的Action执行、 Transformation转换、Controller控制三种操作类型的使用

2017-11-28 21:18:30

阅读数 1165

评论数 0

Spark统一内存管理:UnifiedMemoryManager

@DT大数据梦工厂 Spark统一内存管理:UnifiedMemoryManager,内存管理图: Spark静态内存管理:StaticMemoryManager请看:http://blog.csdn.net/aijiudu/article/details/77885953 一、统一内存...

2017-09-19 17:39:09

阅读数 1349

评论数 0

Spark静态内存管理:StaticMemoryManager

MemoryManager将堆空间静态分区为不相交的区域。分别通过spark.shuffle.memoryFraction和spark.storage.memoryFraction来确定执行和存储区域的大小 。这两个区域是完全分离的,使得两者都不能从另一个借用内存。 例如Executor的可...

2017-09-07 20:00:58

阅读数 468

评论数 0

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

Spark Shuffle的fetch操作、数据存储、文件个数、排序算法和Hadoop的区别

2017-09-07 19:52:40

阅读数 742

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭