![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
笔尖的痕
spark、hadoop,数据仓库,实时计算
展开
-
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2016-09-05 14:48:06 · 1900 阅读 · 0 评论 -
Project Tungsten:让Spark将硬件性能压榨到极限
本文编译自Databricks Blog(Project Tungsten: Bringing Spark Closer to Bare Metal),作者Reynold Xin(@hashjoin)、Josh Rosen。由七牛云存储技术总监陈超(@CrazyJvm)友情审校。以下为原文:在之前的博文中,我们回顾和总结了2014年Spark在性能提升上所做的努力。本篇博文转载 2016-02-19 17:03:03 · 489 阅读 · 0 评论 -
Install Ganglia on Ubuntu 14.04 Server (Trusty Tahr)
Sponsored LinkGanglia is a scalable distributed monitoring system for high-performance computing systems such as clusters and Grids. It is based on a hierarchical design targeted at federations of转载 2016-03-15 22:53:12 · 400 阅读 · 0 评论 -
Apache Spark源码走读之4 -- DStream实时流数据处理
Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型,该模型使得Spark Streaming有非常高的处理速度,与storm相比拥有更高的吞能力。本篇简要分析Spark Streaming的处理模型,Spark Streaming系统的初始化过程,以及当接收到外部数据时后续的处理步骤。系统概述流数据的特点与一转载 2015-12-23 18:24:15 · 1372 阅读 · 0 评论 -
Apache Spark源码走读之3 -- Task运行期之函数调用关系分析
概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕spark运行在local mode或local-cluster modelocal-cluster modelocal-cluster模式也称为伪分布式,可以使用如下转载 2015-12-23 18:10:10 · 773 阅读 · 0 评论 -
Apache Spark源码走读之2 -- Job的提交与运行
概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt安装java启动spark-shell单机模式运行,即local模式local模式运行非常简单,只要运行以下命令即可,假设当转载 2015-12-23 17:55:16 · 876 阅读 · 0 评论 -
Spark Streaming 订单关联案例剖析
Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案。本文将详细地介绍如何使用 Spark St转载 2015-12-17 18:26:15 · 645 阅读 · 0 评论 -
解析大数据基准测试——TPC-H or TPC-DS
随着开源Hapdoop、Map/Reduce、Spark、HDFS、HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展。一般来说,大数据具有3V特性,即Volume(海量)、Velocity(高速)和Variety(多样)[1]。TPC联合主席、Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity(精确)的挑战。如何客观地比较不转载 2015-11-18 12:12:34 · 1131 阅读 · 0 评论 -
spark出现GC overhead limit exceeded和java heap space
spark执行任务时出现java.lang.OutOfMemoryError: GC overhead limit exceeded和java.lang.OutOfMemoryError: java heap space最直接的解决方式就是在spark-env.sh中将下面两个参数调节的尽量大 export SPARK_EXECUTOR_MEMORY=6000M e转载 2015-08-09 00:20:51 · 6969 阅读 · 0 评论 -
Spark 1.6发布的新功能
2016年1月5日,Databricks宣布发布Apache Spark 1.6! 这也是开源社区开发的一个里程碑,2015年代码贡献者达到1000人,是2014一整年的两倍,见下图。接下来揭开Spark 1.6新发布的功能。Spark 1.6包含了超过1000个patches,在这里主要展示三个方面的主题:新的Dataset API,性能提升(读取 Parquet 50%转载 2016-02-19 17:07:37 · 507 阅读 · 0 评论 -
spark-1.4配置
spark-default.conf:spark.master spark://hadoop:7077spark.eventLog.enabled truespark.eventLog.dir hdfs://hadoop:9000/sparkspark.serializer org原创 2015-07-26 17:33:29 · 1375 阅读 · 0 评论 -
Spark Metrics配置详解
和Hadoop类似,在Spark中也存在很多的Metrics配置相关的参数,它是基于Coda Hale Metrics Library的可配置Metrics系统,我们可以通过配置文件进行配置,通过Spark的Metrics系统,我们可以把Spark Metrics的信息报告到各种各样的Sink,比如HTTP、JMX以及CSV文件。 Spark的Metrics系统目前支持以下的实例:转载 2016-03-13 00:26:18 · 3275 阅读 · 1 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2016-09-05 11:40:31 · 579 阅读 · 0 评论 -
CaffeOnSpark in Ubuntu 15.04
check nvidia:lspci | grep -i nvidiacheck gcc:gcc --versioninstall cuda:apt-get install build-essentialll /etc/X11/xorg.confcd /etc/X11mv xorg.conf xorg.conf.bakvim /etc/modprobe.原创 2016-04-20 23:42:39 · 1866 阅读 · 0 评论 -
spark与elasticsearch整合
org.scala-lang scala-library ${scala.version} compile org.scala-lang scala-compiler ${scala.version}原创 2016-03-26 02:27:35 · 8519 阅读 · 3 评论 -
Spark Executor Driver资源调度小结
一、引子 在Worker Actor中,每次LaunchExecutor会创建一个CoarseGrainedExecutorBackend进程,Executor和CoarseGrainedExecutorBackend是1对1的关系。也就是说集群里启动多少Executor实例就有多少CoarseGrainedExecutorBackend进程。 那么到底是如何分配Execu转载 2016-03-14 17:04:33 · 3056 阅读 · 0 评论 -
Shuffle的性能调优
1.1.1 spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuffle,即Hash Based Shuffle和Sort Based Shuffle。其中在Spark 1.0之前仅支持Hash Based Shuffle。Spark 1.1的时候引入了Sort Based Shuffle。Spark 1.2的默认Shuffle机制从H转载 2016-03-14 15:37:43 · 1910 阅读 · 0 评论 -
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任务运行缓慢。问题2:shuffle磁盘IO时间长解决方式:转载 2016-03-14 15:17:42 · 649 阅读 · 0 评论 -
GC调优在Spark应用中的实践
摘要:Spark立足内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制。与此同时,它也兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态转载 2016-03-24 17:59:29 · 428 阅读 · 0 评论 -
使用Ganglia监控Spark
在本博客的《Spark Metrics配置详解》文章中介绍了Spark Metrics的配置,其中我们就介绍了Spark监控支持Ganglia Sink。 Ganglia是UC Berkeley发起的一个开源集群监视项目,主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能转载 2016-03-13 00:26:59 · 2845 阅读 · 1 评论 -
Scala java maven 混合开发 pom配置
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org原创 2015-07-13 00:21:40 · 1898 阅读 · 0 评论 -
Spark as a Service之JobServer初测
spark-jobserver提供了一个用于提交和管理Apache Spark作业(job)、jar文件和作业上下文(SparkContext)的RESTful接口。该项目位于git(https://github.com/ooyala/spark-jobserver),当前为0.4版本。特性“Spark as a Service”: 简单的面向job和context管理的REST接转载 2015-07-13 00:25:37 · 1449 阅读 · 0 评论 -
Spark1.0.0 学习路线
2014-05-30 Spark1.0.0 Relaease 经过11次RC后终于发布,虽然还有不少bug,还是很令人振奋。作为一个骨灰级的老IT,经过很成一段时间的消沉,再次被点燃激情,决定近几年内投入Spark的队伍,去见证Spark的不断强大。在最初的阶段,将作为Spark的布道者,宣传和介绍Spark,最终将选择某一个方向,深入研究和编写代码。 随着国家对软件安全的重视,转载 2014-09-07 01:07:54 · 668 阅读 · 0 评论 -
Spark1.0.0 运行架构基本概念
Spark Application的运行架构由两部分组成:driver program(SparkContext)和executor。Spark Application一般都是在集群中运行,比如Spark Standalone、YARN、mesos,这些集群给Spark Applicaiton提供了计算资源和这些资源管理,这些资源既可以给executor运行,也可以给driver program转载 2014-09-07 02:02:50 · 754 阅读 · 0 评论 -
Spark On Yarn(HDFS HA)详细配置过程
一、服务器分布及相关说明1、服务器角色2、Hadoop(HDFS HA)总体架构 二、基础环境部署1、JDK安装http://download.oracle.com/otn-pub/java/jdk/7u45-b18/jdk-7u45-linux-x64.tar.gz# tar xvzf jdk-7u45-linux-x64.ta转载 2014-09-07 01:34:09 · 7145 阅读 · 0 评论 -
Spark安装与学习
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-131 Scala安装转载 2014-05-29 17:22:47 · 853 阅读 · 0 评论 -
Spark-1.0.0 standalone分布式安装教程
Spark目前支持多种分布式部署方式:一、Standalone Deploy Mode;二Amazon EC2、;三、Apache Mesos;四、Hadoop YARN。第一种方式是单独部署,不需要有依赖的资源管理器,其它三种都需要将spark部署到对应的资源管理器上。 除了部署的多种方式之外,较新版本的Spark支持多种hadoop平台,比如从0.8.1版本开始分别支持Had转载 2014-07-22 23:19:45 · 1161 阅读 · 0 评论 -
spark问题
当遇到spark和主节点断开的时候,可是试一下把节点的Work进程结束,再次原创 2014-07-22 22:03:35 · 813 阅读 · 0 评论 -
spark入门
系统:centos6.4 spark版本:0.8.11.spark官方网址里面有软件下载,文档,和视频教程。官网见:猛戳此处2.spark安装centos下安装方法见参考文献1。安装后运行example出现问题:1)WARN cluster.ClusterScheduler: Initial job has not accepted any r转载 2014-05-08 22:52:40 · 1010 阅读 · 0 评论 -
spark 学习
zhuspark,又一个传说中的分布式实现,详情:http://spark-project.org/,安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount原始代码如下:Java代码 import scala.Tuple2; impo转载 2014-05-03 23:51:47 · 1054 阅读 · 0 评论 -
Spark1.0.0 on YARN 模式部署
1:概述 说Spark on YARN的部署,还不如说是Spark应用程序在YARN环境中的运行。按照Spark应用程序中的driver (SparkContext)分布方式不同,Spark on YARN有两种模式:一种是yarn-client模式,在这种模式下,Spark driver在客户机上运行,然后向YARN申请运行exeutor以运行Task。一种是yarn-转载 2014-09-07 01:10:40 · 856 阅读 · 0 评论 -
Spark1.0.0 on Standalone 模式部署
1:Spark1.0.0 Standalone Mode安装A:部署包生成首先,官网 http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz 下载源代码,解压后切换到源码目录,运行部署包生成程序make-distribution.sh$ ./make-distribution.sh --hadoop 2.2.0 --with转载 2014-09-07 01:32:20 · 643 阅读 · 0 评论 -
Spark1.0.0 history server 配置
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history serve转载 2014-09-07 01:39:47 · 718 阅读 · 0 评论 -
Tachyon的安装、配置和使用
0. 前言在上一篇博文《Tachyon简介》中,我们简要地介绍了Tachyon,一个以内存为中心的分布式文件系统,及其一些基本工作原理。这一次,我们重点介绍如何在你自己的单机或集群环境下去安装、配置和使用Tachyon。具体地,会从怎样编译源码开始,到各项配置、命令的说明,再加上API的使用举例,让大家能够一步步地把Tachyon用起来。版本选择Tachyon目前的最新发布版为转载 2015-03-20 14:41:25 · 1592 阅读 · 0 评论 -
Spark作业代码(源码)IDE远程调试
我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源码。 本文以调试Spark Application为例进行说明,本文用到的IDE转载 2015-03-19 02:58:56 · 981 阅读 · 0 评论 -
spark源码解读
http://www.cnblogs.com/fxjwind/category/518904.html转载 2014-09-23 17:36:29 · 840 阅读 · 0 评论 -
spark网页资料
http://www.tuicool.com/topics/11090132?st=0&lang=0&pn=0转载 2014-09-08 03:36:31 · 1040 阅读 · 0 评论 -
spark应用程序的运行架构
几个基本概念:(1)job:包含多个task组成的并行计算,往往由action催生。(2)stage:job的调度单位。(3)task:被送到某个executor上的工作单元。(4)taskSet:一组关联的,相互之间没有shuffle依赖关系的任务组成的任务集。一个应用程序由一个driver program和多个job构成。一个job由多个stage组成。转载 2014-09-08 03:39:10 · 687 阅读 · 0 评论 -
spark 1.1.0 on hadoop 2.4.1 安装笔记 (resourcemanager ha 支持)
由于spark1.1.0还没正式发布只是v1.1.0-snapshot2 版本。但是hadoop2.4.1的resourcemanager ha 在spark 1.0.2版本还不支持(提交spark到yarn的时候。applicationmaster老是会请求本地的8030端口)。有兴趣的同志可以先提现体验一下。。下载地址:https://github.com/apache/spark/r转载 2014-09-08 03:24:21 · 1934 阅读 · 0 评论 -
Spark1.0.0 Standalone HA的实现
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:基于文件系统的单点恢复基于zookeeper的Standby Masters本文中的测试是在Spark1.0.0 Standalone 模式部署上进行。1转载 2014-09-08 01:59:10 · 783 阅读 · 0 评论