spark1.0.0
文章平均质量分 78
mmicky20110730
好几年没写博客了,准备重新开博,将这几年的一些经验和想法沉淀一下。
展开
-
Spark1.0.0 on Standalone 运行架构实例解析
本篇是对Spark1.0.0 运行架构基本概念进行实例解析,加深对Spark的运行结构基本概念的理解。1:实验配置虚拟机cdh1(4G内存,1CPU*2CORE)虚拟机cdh2(4G内存,1CPU*2CORE)虚拟机cdh3(4G内存,1CPU*2CORE)spark配置:conf/spark-env.shexport SPARK_MASTER_IP=cdh1export SPARK_WORKER原创 2014-05-13 15:23:38 · 3535 阅读 · 0 评论 -
为什么学习Spark?
讲到Spark,我们要先讲将大数据,因为Spark是一个处理大数据的平台。那什么是大数据呢?大数据也称为海量数据,通常都是指TG级、PB级的数据,但是随着时间的流逝和验证,一些人们对大数据也发生了观念上的转变,而是把对企业有价值的数据称为大数据,它不一定大,但要有价值。 近二十年来,随着计算机技术和互联网技术的高速发展,计算机在记录着人类的日常活动,如手机通讯、网站访问、微博留言、视原创 2014-05-13 15:24:20 · 3577 阅读 · 0 评论 -
Spark1.0.0 应用程序部署工具spark-submit
随着Spark的应用越来越广泛,对支持多资源管理器应用程序部署工具的需求也越来越迫切。随着Spark1.0.0的出现,这个问题得到了逐步的改善。从Spark1.0.0开始,Spark提供了一个容易上手的应用程序部署工具bin/spark-submit,可以完成Spark应用程序在Standalone、YARN、Mesos上的快捷部署。1:使用说明进入$SPARK_HOME目录,输入bin/spar原创 2014-05-13 15:24:15 · 21499 阅读 · 4 评论 -
Spark1.0.0 history server 配置
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history serve原创 2014-06-17 22:45:49 · 8722 阅读 · 8 评论 -
Spark1.0.0 多语言编程之Scala实现
Scala作为Spark的原生语言,在开发上Spark应用程序上最大的优势是支持所有的功能、容易追踪bug等。试过几种开发工具,笔者还是觉得IntelliJ IDEA开发Scala程序比较方便,当然Spark Application也一样。笔者的spark开发环境参见Spark1.0.0 多语言编程,本篇是对Spark1.0.0 多语言编程的需求进行scala实现。在开发Spark Applica原创 2014-05-13 15:23:52 · 3338 阅读 · 1 评论 -
Spark1.0.0 多语言编程之python实现
Spark公开了pyhton的编程模型-PySpark,开发者通过PySpark可以很容易开发Spark application。但是Python API和Scala API略有不同:Python是动态语言,RDD可以持有不同类型的对象PySpark目前并没有支持全部的API,但核心部分已经全部支持在PySpark里,RDD支持scala一样的方法,只不过这些方法是Python函数来实现的,返回的原创 2014-05-13 15:23:54 · 5822 阅读 · 0 评论 -
使用IntelliJ IDEA开发Spark1.0.0应用程序
之所以写本篇是因为后面很多博客需要例程来解析或说明。本篇是Spark1.0.0 开发环境快速搭建中关于客户端IDE部分的内容,将具体描述:原创 2014-05-13 15:24:17 · 13246 阅读 · 8 评论 -
Spark1.0.0 on YARN 模式部署
Spark应用程序在YARN中的部署,说明scala程序和python程序分别以yarn-client和yarn-cluster方式在YARN中的部署。原创 2014-05-13 15:22:45 · 10332 阅读 · 6 评论 -
Spark1.0.0 编程模型
Spark Application可以在集群中并行运行,其关键是抽象出RDD的概念(详见RDD 细解),也使得Spark Application的开发变得简单明了。下图浓缩了Spark的编程模型。 1:Spark应用程序的结构 Spark应用程序可分两部分:driver部分和executor部分初始化SparkContext和主体程序原创 2014-06-18 10:55:03 · 4891 阅读 · 1 评论 -
Spark1.0.0 属性配置
1:Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。 在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,原创 2014-06-09 01:34:58 · 8722 阅读 · 2 评论 -
Spark1.0.0 生态圈一览
Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD。通过Spark生态圈,AMPLab运用大数据、云计算、通信等各种资源,以及各种灵活的技术方案,对海量不透明的数原创 2014-06-08 13:45:42 · 6415 阅读 · 4 评论 -
Spark1.0.0 新特性
Spark1.0.0 release于2014-05-30日正式发布,标志Spark正式进入1.X的时代。Spark1.0.0带来了各种新的特性,并提供了更好的API支持;Spark1.0.0增加了Spark SQL这一个新的重要组件,用于加载和操作Spark的结构化数据;Spark1.0.0增强了现有的标准库(ML,streaming,GraphX??),同时还增强了Java和Python语言的原创 2014-06-02 14:32:32 · 4020 阅读 · 0 评论 -
Spark1.0.0 开发环境快速搭建
在本系列博客中,为了解析一些概念、解析一些架构、代码测试,搭建了一个实验平台,如下图所示: 本实验平台是在一台物理机上搭建的,物理机的配置是16G内存,4核8线程CPU。平台的环境配置如下:机器名配置角色软件安装hadoop12G内存,双核hadoop:NN/DN Spark:Master/worker /app/h原创 2014-06-12 15:19:17 · 8173 阅读 · 0 评论 -
Spark1.0.0 运行架构基本概念
Spark Application的运行架构由两部分组成:driver program(SparkContext)和executor。Spark Application一般都是在集群中运行,比如Spark Standalone、YARN、mesos,这些集群给Spark Applicaiton提供了计算资源和这些资源管理,这些资源既可以给executor运行,也可以给driver program原创 2014-05-13 15:23:35 · 10500 阅读 · 3 评论 -
Spark1.0.0 多语言编程
了解了spark编程的基本概念,可以看出spark编程都是围绕着RDD进行的。关于编程的基础知识,可以参看Spark1.0.0 编程模型。 spark目前支持scala、python、JAVA编程。 作为spark的原生语言,scala是开发spark应用程序的首选,其优雅简洁的代码,令开发过mapreduce代码的码农感觉象是上了天堂。 spark也提供了pytho原创 2014-05-13 15:23:49 · 2754 阅读 · 0 评论 -
Spark1.0.0 的一些小经验
1:关于读取本地文件使用spark-shell连接Spark集群,然后在运行应用程序中读取本地文件时,会经常碰上文件不存在的错误。主要原因是由于:spark-shell作为应用程序,是将提交作业给spark集群,然后spark集群分配到具体的worker来处理,worker在处理作业的时候会读取本地文件。这时候冲突就发生了,运行spark-shell的机器可能和运行worker的机器不是同一台,而原创 2014-05-13 15:23:33 · 3604 阅读 · 2 评论 -
关于SPARK_WORKER_MEMORY和SPARK_MEM
在spark中最容易混淆的是各种内存关系。本篇讲述一下SPARK_WORKER_MEMORY和SPARK_MEM。SPARK_WORKER_MEMORY是计算节点worker所能支配的内存,各个节点可以根据实际物理内存的大小,通过配置conf/spark-env.sh来分配内存给该节点的worker进程使用。在spark standalone集群中,如果各节点的物理配置不一样,conf/spark原创 2014-05-13 15:23:47 · 5971 阅读 · 0 评论 -
Stage 细解
Spark Application在遇到action算子时,SparkContext会生成Job,并将构成DAG图将给DAG Scheduler解析成Stage。Stage有两种:ShuffleMapStage 这种Stage是以Shuffle为输出边界其输入边界可以是从外部获取数据,也可以是另一个ShuffleMapStage的输出其输出可以是另一个Stage的开始ShuffleMapStage原创 2014-05-13 15:24:08 · 2852 阅读 · 0 评论 -
RDD 细解
占个茅坑先~原创 2014-05-13 15:24:01 · 3597 阅读 · 2 评论 -
DAG Scheduler 细解
1:DAG Scheduler的作用原创 2014-05-13 15:24:04 · 4141 阅读 · 1 评论 -
Task Scheduler 细解
1:Task Scheduler的作用原创 2014-05-13 15:24:06 · 3764 阅读 · 1 评论 -
Spark1.0.0 on YARN 运行架构实例解析
又是一个坑原创 2014-05-13 15:24:10 · 2318 阅读 · 1 评论 -
Spark1.0.0 on Standalone 模式部署
1:Spark1.0.0 Standalone Mode安装A:部署包生成首先,通过git下载最新Spark1.0.0-SNAPSHOT源代码,然后切换到源码目录,运行部署包生成程序make-distribution.sh:$ git clone https://github.com/apache/spark.git$ ./make-distribution.sh --hadoop 2.2.0 -原创 2014-05-13 15:22:50 · 6210 阅读 · 0 评论 -
Spark1.0.0 Standalone HA的实现
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:基于文件系统的单点恢复基于zookeeper的Standby Masters本文中的测试是在Spark1.0.0 Standalone 模式部署上进行。1:基于文件系统的单点恢复主要原创 2014-05-13 15:23:57 · 2456 阅读 · 0 评论 -
Spark1.0.0 学习路线
Spark1.0.0系列博客之引导篇,从预览篇、原理篇、运维篇、生态环境、源码篇、开发篇六个角度来介绍spark1.0.0。原创 2014-05-13 15:24:24 · 8301 阅读 · 7 评论 -
Spark1.0.0 的监控方式
Spark1.0.0可以通过以下几种方式来对Spark应用程序进行监控:Spark应用程序的WebUI或者Spark Standalone的集群监控指标,然后通过支持指标收集的集群监控系统,如ganglia进行监控辅助监控工具1:WebUI Spark应用程序提交后,driver和Executor之间不断的交换运行信息,可以通过driver的4原创 2014-06-15 13:43:20 · 5040 阅读 · 0 评论 -
Spark1.0.0 环境变量配置
又是一个坑原创 2014-05-13 15:24:13 · 1742 阅读 · 0 评论 -
鸡肋的JdbcRDD
今天准备将mysql的数据倒腾到RDD,很早以前就知道有一个JdbcRDD,就想着使用一下,结果发现却是鸡肋一个。 首先,看看JdbcRDD的定义: * An RDD that executes an SQL query on a JDBC connection and reads results. * For usage example, see test case原创 2014-07-23 16:22:33 · 10535 阅读 · 2 评论