spark
文章平均质量分 60
BBlue-Sky
这个作者很懒,什么都没留下…
展开
-
Spark基本工作流程及YARN cluster模式原理
Spark基本工作流程 相关术语解释 Spark应用程序相关的几个术语:Worker:集群中任何可以运行Application代码的节点,类似于YARN中的NodeManager节点。在Spark on Yarn模式中指的就是NodeManager节点; Executor:Application运行在Worker 节点上的一个进程,该进程负责运行Task,并且负责将数据存在内存或者磁盘上,每个原创 2017-04-23 10:27:31 · 564 阅读 · 0 评论 -
SparkSQL:如何找到与Spark版本对应的jar包
方法:进入Spark官网,下载对应版本的Spark,注意相应版本号,以及直接下载预编译的版本,不要下源码包 下载之后,解压,到该文件夹下的jars目录,对应Spark版本的相应jar包均在其中,再导入IDE既可以进行开发了原创 2017-09-06 09:18:33 · 73641 阅读 · 0 评论 -
spark 入门、深入学习书籍pdf-2017最强大礼包(精选当当Top10)
大礼包内含书目:Apache Spark源码剖析.pdf深入理解Spark:核心思想与源码分析.pdfSpark快速大数据分析.pdfSpark高级数据分析.pdf数据算法--Hadoop-Spark大数据处理技巧Spark大数据处理:技术、应用与性能优化(全).pdfSpark技术内幕 深入解析Spark内核架构设计与实现原理.pdf下载地址: http://pan.baidu.原创 2017-08-15 18:33:09 · 5941 阅读 · 3 评论 -
Spark快速大数据分析——读书笔记
——8.16开始整理 Spark快速大数据分析推荐序: 一套大数据解决方案通常包含多个组件,从存储、计算和网络硬件层,到数据处理引擎,再到利用改良的统计和计算算法、数据可视化来获得商业洞见的分析层,这其中数据处理引擎起到了十分重要的作用,毫不夸张的说数据处理引擎至于大数据就相当于CPU之于计算机spark起源: 2009年加州大学伯克利分校AMPlab 创立spark大数据处理和计算框架。不同原创 2017-08-19 21:18:13 · 4987 阅读 · 0 评论 -
spark-submit 依赖解决方案
spark的jar包没必要把所有相关的依赖都打进一个jar包中,因为这样会把spark、hadoop本身相关的jar包也打进去,但是这些依赖在用spark-submit命令运行时,会自动加载部署环境中已有的。/opt/cloudera/parcels/CDH/bin/spark-submit \–class “cn.icarevision.its007.upgrade.EsIndexUpgrade”转载 2017-07-18 10:11:15 · 3286 阅读 · 1 评论 -
Spark RDD、DataFrame和DataSet的区别
RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性能开销 频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLCo转载 2017-04-29 18:58:56 · 249 阅读 · 0 评论 -
Spark 最强入门导引--来自厦门大学数据库实验室
Spark 最强入门及提升导引原创 2017-04-29 18:24:15 · 692 阅读 · 0 评论 -
Spark源码系列(八)Spark Streaming实例分析
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming编程指南》。Example代码分析 复制代码 val ssc = new StreamingContext(sparkConf, Seconds(1)); // 获得一个DStream负责连接 监听端口:地址 val lines = ssc.socketTextStream(se原创 2017-04-23 10:45:38 · 478 阅读 · 0 评论 -
Spark源码系列(一)spark-submit提交作业过程
前言 折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。这个是Spark的App运行图,它通过一个Driver来和集群通信,集群负责作业的分配。今天我要讲的是如何创建这个Driver Program的过程。作业提交方法以及参数 我们先看一下用Spark Submit提交的方法吧,下面是从官方上面摘抄的内容。复制代码Run on a Spark standal原创 2017-04-23 10:41:18 · 588 阅读 · 0 评论 -
Spark源码系列(九)Spark SQL初体验之解析过程详解
好久没更新博客了,之前学了一些R语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新Spark Sql的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2马上就要出来了,不知道变动会不会很大,据说添加了很多的新功能呢,期待中…首先声明一下这个版本的代码是1.1的,之前讲的都是1.0的。Spark支持两种模式,一种是在spark里面直接写sql,可以通原创 2017-04-23 10:46:06 · 1021 阅读 · 0 评论 -
Spark源码系列(七)Spark on yarn具体实现
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一个月的时间,更新太快了,节奏跟不上啊,这里仍旧是讲1.0.0的代码,所以各位朋友也不要再问我讲的是哪个版本,目前为止发布的文章都是基于1.0.0的代码。在第一章《spark-submit提交作业过程》的原创 2017-04-23 10:44:49 · 347 阅读 · 0 评论 -
Spark源码系列(五)分布式缓存
这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的,所以我们直接打开RDD这个类。复制代码 def persist(newLevel: StorageLevel): this.type = { // StorageLevel不能随意更改 if (storageLevel != StorageLevel.NONE && newLevel !=原创 2017-04-23 10:44:10 · 641 阅读 · 0 评论 -
Spark源码系列(四)图解作业生命周期
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know!我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。Driver向Master注册Application过程SparkCont原创 2017-04-23 10:43:13 · 289 阅读 · 0 评论 -
Spark源码系列(二)RDD详解
1、什么是RDD? 上一章讲了Spark提交作业的过程,这一章我们要讲RDD。简单的讲,RDD就是Spark的input,知道input是啥吧,就是输入的数据。RDD的全名是Resilient Distributed Dataset,意思是容错的分布式数据集,每一个RDD都会有5个特征:1、有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。2、有一个函数计算每一个分片原创 2017-04-23 10:41:53 · 332 阅读 · 0 评论 -
Spark源码系列(三)作业运行过程
作业执行 上一章讲了RDD的转换,但是没讲作业的运行,它和Driver Program的关系是啥,和RDD的关系是啥?官方给的例子里面,一执行collect方法就能出结果,那我们就从collect开始看吧,进入RDD,找到collect方法。def collect(): Array[T] = { val results = sc.runJob(this, (iter: Iterator[原创 2017-04-23 10:42:43 · 369 阅读 · 0 评论 -
Spark存储管理(读书笔记)
Spark的存储管理 RDD的存放和管理都是由Spark的存储管理模块实现和管理的。本文从架构和功能两个角度对Spark的存储管理模块进行介绍。架构角度 从架构角度,存储管理模块主要分为以下两层:通信层:存储管理模块采用的是主从结构来实现通信层,主节点和从节点之间传输控制信息、状态信息。 存储层:存储管理模块需要把数据存储到硬盘或者内存中,必要时还需要复制到远端,这些操作由存储层来实现和提供相原创 2017-04-23 10:30:06 · 236 阅读 · 0 评论 -
Spark调度管理(读书笔记)
Spark调度管理 本文主要介绍在单个任务内Spark的调度管理,Spark调度相关概念如下:Task(任务):单个分区数据及上的最小处理流程单元。 TaskSet(任务集):由一组关联的,但互相之间没有Shuffle依赖关系的任务所组成的任务集。 Stage(调度阶段):一个任务集对应的调度阶段。 Job(作业):有一个RDD Action生成的一个或多个调度阶段所组成的一次计算作业。原创 2017-04-23 10:28:56 · 330 阅读 · 0 评论 -
Spark SQL程序SBT编译打包优秀博文总结
理论: 不同的操作系统、cpu体系对编译过程有着什么样的影响? http://kb.cnblogs.com/page/72579/ 打包实例: IDEA调试sparksql,打包并提交运行 http://blog.csdn.net/weipanp/article/details/45098669 进阶: 使原创 2017-10-14 11:01:53 · 570 阅读 · 0 评论