关闭

sparkStreaming+kafka+hbase实战练习一

这个需求是是按照实际工作中的项目改写的一个例子。                业务需求: 1. 实时统计某市银行流水交易总额                                    2. 实时统计某市银行某地区的流水交易总额                                    3. 每隔10s统一次每个地区近一年内的交易总额...
阅读(4147) 评论(0)

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析

JVM性能调优监控工具jps、jstack、jmap、jhat、jstat、hprof使用详解 - 实例分析 原文  http://josh-persistence.iteye.com/blog/2161848 第一部分:工具介绍部分: 现实企业级Java开发中,有时候我们会碰到下面这些问题: OutOfMemoryError,内存不足 内存泄...
阅读(99) 评论(0)

Spark调优之Shuffle调优

shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占...
阅读(103) 评论(0)

Spark调优之数据倾斜调优

目录(?)[-] 前言1数据倾斜调优 调优概述数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况 2数据倾斜的解决方案 解决方案一使用Hive ETL预处理数据解决方案二过滤少数导致倾斜的key解决方案三提高shuffle操作的并行度解决方案四两阶段聚合局部聚合全局...
阅读(98) 评论(0)

Spark调优之资源调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪...
阅读(98) 评论(0)

Spark调优之开发调优

目录(?)[-] 前言开发调优 原则一避免创建重复的RDD原则二尽可能复用同一个RDD 原则三对多次使用的RDD进行持久化 原则四尽量避免使用shuffle类算子原则五使用map-side预聚合的shuffle操作原则六使用高性能的算子原则七广播大变量原则八使用Kryo优化序列化性能原则九优化数据结构 1、前言       在大数据计算领域,...
阅读(136) 评论(0)

spark 内存管理

从Spark 1.6版本开始,Spark采用Unified Memory Management这样一种新的内存管理模型。 Spark中的内存使用分为两部分:执行(execution)与存储(storage)。执行内存主要用于shuffles、joins、sorts和aggregations,存储内存则用于缓存或者跨节点的内部数据传输。 在Spark 1.6之前,这两部分内存的分配是静态的,...
阅读(138) 评论(0)

Spark 中shuffle原理与调优

shuffle调优 调优概述       大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占...
阅读(108) 评论(0)

Sprak RDD缓存

转载:https://www.iteblog.com/archives/1532.html 我们知道,Spark相比Hadoop最大的一个优势就是可以将数据cache到内存,以供后面的计算使用。本文将对这部分的代码进行分析。   我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据,cache()其实就是调用persist()实现的。persist()支持...
阅读(74) 评论(0)

Spark RDD

转载:http://www.infoq.com/cn/articles/spark-core-rdd/ 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Un...
阅读(85) 评论(0)
173条 共18页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:109692次
    • 积分:2085
    • 等级:
    • 排名:第18356名
    • 原创:76篇
    • 转载:97篇
    • 译文:0篇
    • 评论:4条
    文章分类