自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

hery_csnd168的博客

不积跬步无以至千里,不积小流无以成江海

转载 Spark算子使用示例

1. 算子分类从大方向来说,Spark 算子大致可以分为以下两类Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action:会触发 Spark 提交作业(Job),并将数据...

2018-04-17 15:55:52

阅读数 138

评论数 0

转载 Spark 2.x 性能调优-IBM

IBM Big Data PerformanceJesse Chen, jesse.f.chen@gmail.com Troubleshooting Spark 2.x Building SparkRunning Spark-  ‘--verbose’-  Missing external JAR...

2018-03-13 09:37:54

阅读数 549

评论数 0

原创 11shuffle调优之合并map端输出文件

前置条件每个executor有2个CPU core,4个task。task是线程执行的,所以先并行跑2个task,再跑剩下的2个task。问题分析:默认的shuffle行为,对性能有什么样的影响?实际生产环境的条件:100个节点,每个节点一个executor,那么有100个executor,每个...

2018-03-13 09:24:40

阅读数 136

评论数 0

原创 10 shuffle调优原理概述-性能优化

什么的情况下会发生shuffle?在spark中,最主要是以下几个算子:groupByKey,reduceByKey,countByKey ,join等什么是shuffle?groupBykey ,把分布在集群各个节点上的数据中,同一个key,对应的values,都给集中到一块,集中到集群中的同一...

2018-03-12 15:48:39

阅读数 64

评论数 0

转载 09JVM调优之调节executor堆外内存与连接等待时长

executor 堆外内存有时候,如果你的 spark 作业处理的数据量特别特别大,比如有几亿数据量,然后spark 作业一运行,时不时的报错,出现 shuffle file cannot find 诸如此类的错误,导致 executor、task lost,out of memory(内存溢出)...

2018-03-12 13:48:26

阅读数 98

评论数 0

转载 08JVM调优之原理概述以及降低cache操作的内存占比

性能调优分类常规性能调优:分配资源、并行度等等方式。JVM 调优(Java虚拟机):JVM相关的参数。通常情况下,如果你的硬件配置、基础的 JVM 的配置都 ok 的话,JVM 通常不会造成太严重的性能问题,反而更多的是在 troubleshooting 中 JVM 占了很重要的地位, JVM 造...

2018-03-12 13:47:49

阅读数 79

评论数 0

转载 07性能调优之调节数据本地化等待时长

数据本地化等待时长Spark 在 Driver上,对 Application 的每一个 stage 的 task 进行分配之前都会计算出每个 task 要计算的是哪个分片数据,即 RDD 的某个 partition。Spark 的 task 分配算法优先会希望每个 task 正好分配到它要计算的数...

2018-03-12 13:46:48

阅读数 54

评论数 0

转载 06性能调优之使用 fastutil 优化数据格式

fastutil 介绍fastutil 是扩展了Java标准集合框架(Map、List、Set;HashMap、ArrayList、HashSet)的类库,提供了特殊类型的map、set、list和queue。fastutil 能够提供更小的内存占用,更快的存取速度。我们使用fastutil提供的...

2018-03-12 13:46:03

阅读数 167

评论数 0

转载 05性能调优之Kryo序列化

Kryo 序列化原因在广播大变量进行优化后,还可以进一步优化,即优化这个序列化格式。 默认情况下,Spark内部是使用Java的序列化机制ObjectOutputStream / ObjectInputStream这种对象输入输出流机制来进行序列化。 这种默认序列化机制的好处在于:处理起来比较方便...

2018-03-12 13:42:56

阅读数 165

评论数 0

转载 04性能调优之广播大变量

问题分析Spark Application的Driver进程,其实就是我们写的Spark作业打成的jar运行起来的进程,以随机抽取map步骤为例,其工作时过程大致为: 这种默认的情况下,task执行的算子中使用了外部的变量,每个task都会获取一份变量的副本,有什么缺点呢?在什么情况下会出现性能上...

2018-03-12 13:42:10

阅读数 72

评论数 0

转载 03性能调优之重构RDD架构以及RDD持久化

RDD架构重构与优化一种情况是从一个RDD到几个不同的RDD,算子和计算逻辑其实是完全一样的,结果因为人为的疏忽计算了多次,获取到了多个RDD。所以尽量去复用RDD,差不多的RDD可以抽取称为一个共同的RDD,供后面的RDD计算时,反复使用。公共RDD一定要实现持久化 当第一次对RDD2执行算子,...

2018-03-12 13:38:09

阅读数 62

评论数 0

转载 02性能调优之调节并行度

以 Spark 中的 WordCount 作业为例,每个Spark作业其实都是一个 Application,每个 Application 对应多个 Jobs,一个 action 操作(比如 collect)触发一个 job,在WordCount程序中有一个 job,每个 job 拆成多个 stag...

2018-03-07 09:20:04

阅读数 61

评论数 0

转载 01性能调优之分配更多资源

分配更多资源性能调优的王道就是增加和分配更多的资源,性能和速度上的提升是显而易见的。基本上,在一定范围之内,增加资源与性能的提升是成正比的。写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得就是要来调节最优的资源配置,在这个基础之上,如果说你的spark作业,能够分配的资源...

2018-03-07 09:05:36

阅读数 75

评论数 0

原创 RDD实现详解

RDD是Spark最基本也是最根本的数据抽象, 它具备像MapReduce等数据流模型的容错性, 并且允许开发人员在大型集群上执行 基于内存的计算。 现有的数据流系统对两种应用的处理并不高效: 一是迭代式算法, 这在图应用和机器学习领域很常见; 二是 交互式数据挖掘工具。 这两种情况下, 将数据保...

2017-04-06 18:25:48

阅读数 1039

评论数 0

原创 Spark架构综述

用户程序从最开始的提交到最终的计算执行, 需要经历以下几个阶段:1) 用户程序创建SparkContext时, 新创建的SparkContext实例会连接到Cluster Manager。 Cluster Manager会根据用户提交时设置的CPU和内存等信息为本次提交分配计算资源, 启动Exec...

2017-04-06 18:00:33

阅读数 412

评论数 0

转载 java常用的几种线程池比较

1. 为什么使用线程池 诸如 Web 服务器、数据库服务器、文件服务器或邮件服务器之类的许多服务器应用程序都面向处理来自某些远程来源的大量短小的任务。请求以某种方式到达服务器,这种方式可能是通过网络协议(例如 HTTP、FTP 或 POP)、通过 JMS 队列或者可能通过轮询数据库。不管请求如何...

2017-03-04 15:10:20

阅读数 281

评论数 0

原创 二叉树结构

dsfad

2017-03-03 17:00:26

阅读数 182

评论数 0

转载 第58课:使用Java和Scala在IDE中开发DataFrame实战学习笔记

本期内容: 1. 使用Java开发DataFrame实战 2.  使用Scala开发DataFrame实战   自Spark1.3开始大多数SparkSQL都基于DataFrame编程。因为DataFrame高效且功能强大。 可以把SparkSQl作为一个分布式查询引擎。SparkSQL...

2016-06-03 09:23:10

阅读数 447

评论数 0

原创 Scala学习第八天 Scala主构造器、私有构造器、构造器重载实战详解

内容:1、Scala主构造器2、构造器重载3、私有构造器一

2015-08-02 14:39:56

阅读数 340

评论数 0

原创 Scala学习第7天 Scala类的属性和对象私有字段实战详解

Scala类的使用实战

2015-08-02 14:39:20

阅读数 282

评论数 0

提示
确定要删除当前文章?
取消 删除