Spark
文章平均质量分 80
一只懒得睁眼的猫
励志成为一个技术大牛!
展开
-
Spark on yarn
参考博客:https://www.cnblogs.com/lemonu/p/13540201.htmlhttps://blog.csdn.net/huojiao2006/article/details/80563112Spark可以和Yarn整合,将Application提交到Yarn上运行,Yarn也有两种提交任务的方式。yarn-client提交任务方式配置方式:在client节点配置中spark-env.sh添加Hadoop_CONF_DIR的配置目录即可提交yarn 任务(或者在/e原创 2021-10-03 11:47:41 · 296 阅读 · 0 评论 -
Spark系列修炼---入门笔记11
核心内容: 1、Spark源码的导入今天在学习Spark的过程中,学会了源码的导入,进行总结: 首先一定要注意:在导入源码之前,本地必须先安装好JDK、Scala2.10.X以及Maven。 Maven下载地址 : http://pan.baidu.com/s/1boPmzSV 对了,当然必须要有源码: Spark1.6.0源码从Spark官网进行下载: 好原创 2016-11-23 22:04:04 · 1295 阅读 · 0 评论 -
Spark系列修炼---入门笔记21
核心内容: 1、Spark中常用的Transformation算子: map、filter、flatMap、reduceByKey、groupByKey、join、cogroup详解 2、Spark中常用的Action算子:reduce、collect、foreach、savaAsTextFile、sortByKey详解Spark中常用的Transformation算子用法详解(这些算子都是我原创 2016-12-06 20:17:49 · 2515 阅读 · 0 评论 -
Spark系列修炼---入门笔记12
核心内容: 1、Spark中WordCount的运行原理今天又彻底研究了一下Spark中WordCount的运行原理,在运行逻辑上与Hadoop中的MapReduce有很大的相似之处,今天从数据流动的角度解析Spark的WordCount,即从数据流动的角度来分析数据在Spark中是如何被处理的。 直接分析程序:val lines:RDD[String] = sc.textFile("C:\\w原创 2016-11-26 11:08:41 · 1887 阅读 · 0 评论 -
Spark系列修炼---入门笔记13
核心内容: 1、小编带你通过WordCount程序查看Spark与MapReduce的诸多雷同情节今天通过数据流动的角度再一次从整体上认知了Spark中的WordConunt程序,但是在分析的过程中,给我的第一个感觉就是Spark的运行过程与MapReduce有很多相似之处,接下来就仔细分下一下: 首先,从整体上而言,MapReduce的运行过程分为两个阶段:Mapper阶段和Reducer阶段原创 2016-11-26 14:26:38 · 1586 阅读 · 0 评论 -
Spark系列修炼---入门笔记14
核心内容: 1、如何搭建HA下的Spark集群模式好了,进入本篇博客的正题,本篇博客主要内容为搭建HA下的Spark集群,在搭建之前,先看一下Spark的运行模式: 从运行模式上我们可以看出,我们需要先搭建Zookeeper集群,这里就不在详细叙述Zookeeper集群的的搭建过程了,但是要强调一下Zookeeper集群在安装的时候需要注意的3个方面: ①Zookeeper集群是单独安装的原创 2016-11-27 21:33:04 · 1965 阅读 · 0 评论 -
Spark系列修炼---入门笔记22
核心内容: 1、Spark中的持久化 2、Spark中的广播 3、Spark中的累加器OK,其实这篇博客应该是昨天就完成的,所以自我反省一下,最近这段时间任务比较多,也在一直准备数据结构的事情,估计还有6天左右数据结构与Spark就开始并行学习了,其实当时学完C语言就应该学习数据结构的,呵呵,还好自己当时基础扎实,OK,进入本篇博客的正题…… (一)Spark中的持久化 在Spark当中,原创 2016-12-09 18:15:17 · 2602 阅读 · 0 评论 -
Spark系列修炼---入门笔记23
核心内容: 1、Spark中的基础排序算法 2、Spark中的二次排序算法 3、Spark中排序的相关思考好的,今天我们进入Spark的二次排序,当然我们还是先看最简单的基础排序算法…… 排序的地位:排序非常重要,但是排序不是最常用的,一般超过3维的排序可能性不算太大,其实超过二次排序的可能性也不太大。 实例程序1:基于单一key的简单排序 注意:凡是涉及到排序,数据必须是ke原创 2016-12-16 20:45:39 · 1786 阅读 · 0 评论 -
Spark系列修炼---入门笔记24
核心内容: 1、Spark中基础Top N算法实战 2、Spark中分组Top N算法实战 3、排序算法RangePartitioner内幕解密最近周围的人都在陆陆续续的找工作,本来之前也有一些小的躁动、有点小发慌,但是随着Hadoop1.0、Hadoop2.0与Yarn、Hbase、Hive等的不断深入,这种躁动渐渐的消失了下来,因为能感觉到自己现在已经很有实力了,学习Spark到今天也有2原创 2016-12-17 17:22:21 · 1784 阅读 · 0 评论 -
Spark系列修炼---入门笔记26
核心内容: 1、Spark中的RDD的依赖关系 2、RDD依赖关系下的数据流视图 3、Spark中的作业调度机制今天是Spark第二小阶段的第2次课,整体来说基本上都掌握了,在2016年的最后10天了,希望Spark可以多学点东西,OK,进入本次博客的正题! 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线似的前后依原创 2016-12-22 20:24:05 · 1416 阅读 · 0 评论 -
Spark系列修炼---入门笔记27
核心内容: 1、Spark中的pipline的再度思考 2、Spark中的窄依赖和宽依赖的物理执行内幕 3、Spark中的Job提交流程今天又开始了我的Spark,好的,进入正题……. 回忆一下经典的WordCount程序:package com.appache.spark.appimport org.apache.spark.rdd.RDDimport org.apache.spark.原创 2016-12-26 16:39:49 · 1348 阅读 · 0 评论 -
Spark系列修炼---入门笔记28
核心内容: 1、Spark的Shuffle机制Shuffle是什么? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算,Shuffle是MapReduce框架中的一个特定的阶段,介于Map阶段和Reduce阶段之间,当Map的输出结果要被Reduce使用时,就必须经过Shuffle,由于Shuffle涉及到了磁盘IO的读原创 2016-12-30 17:31:23 · 1813 阅读 · 0 评论 -
Spark系列修炼---入门笔记25
核心内容: 1、Spark的体系结构详解 3、Spark Job的逻辑视图和物理视图解析今天开始进入Spark的第二个小阶段了,坚持、坚持、在坚持! OK,今天主要是学习Spark的体系结构,好的,先用一张图描绘一下Spark的主从式体系结构: 上面的这张图是我自己画的,我又从网上重新下载了一幅图: 从上面这两张图中可以看出,Spark的体系结构是一个主从式的结构,包括Driver原创 2016-12-20 21:32:26 · 1562 阅读 · 1 评论 -
Spark系列修炼---入门笔记10
核心内容: 1、Java开发Spark程序(本地模式与集群模式) 2、Scala版程序对比Java版程序 3、Maven使用的相关注意事项今天学习了用Java开发Spark程序,果然是非常的麻烦,但是相比于Hadoop中的MapReduce还是简单很多。好吧,直接贴代码: Spark本地模式下的开发程序:package com.appache.SparkOfJava;imp原创 2016-11-23 13:46:28 · 1507 阅读 · 0 评论 -
Spark系列修炼---入门笔记8
核心内容: 1、IDEA的下载即安装 2、IEDA环境下开发Spark程序今天又迈出了一步,基本上都已经掌握了,将学习的内容进行以下整理,希望早点学会Spark,早定和婷婷讨论完Spark,早点出山……,好了,不说没用的了,已经11月24号。 今天主要是在IDEA环境下去开发Spark,首先当然是下载IDEA,好吧,直接去官网: 这里写图片描述 这里写图片描述 这里写图片描述原创 2016-11-23 12:35:02 · 990 阅读 · 0 评论 -
Spark系列修炼---入门笔记2
今天是学习Spark的第二天,大部分的内容都听懂了,现将部分模糊的知识点进行整理。 1、在Scala当中,生成对象的时候一般用工厂方法模式(apply),而很少用new的方式object App1{ def main(args:Array[String]):Unit= { val list1 = List("Spark","Hadoop") val原创 2016-11-12 13:30:59 · 1166 阅读 · 0 评论 -
Spark系列修炼---入门笔记3
今天再次学习了Spark的第三次课程了,课程整体还是比较简单。整理一下相关笔记: 1、Scala中的柯里化函数object App1{ def main(args:Array[String]):Unit= { def fun(str1:String) = (str2:String) => str1 +"\t"+str2 val line = fun原创 2016-11-12 21:35:49 · 1199 阅读 · 0 评论 -
Spark系列修炼---入门笔记4
今天学习了Spark的第四次课程,基本上都已经掌握了,现将部分知识进行整理。 模式匹配中的部分应用:object App1{ def main(args:Array[String]):Unit= { def bigData(data:String):Unit = data match //匹配值-->匹配类型 { case原创 2016-11-13 13:46:44 · 1327 阅读 · 0 评论 -
Spark系列修炼---入门笔记5
核心内容: 1、Spark集群搭建与测试 2、粗粒度与细粒度的相关概念今天学习了Spark的集群搭建,并进行了相应的测试工作,现将具体的过程进行整理: 在搭建Spark集群之前,我在6台服务器上面已经将Hadoop集群搭建完成,集群角色分布如下所示: 集群DataNode情况:Datanodes available: 4 (4 total, 0 dead)Live datanodes:原创 2016-11-15 22:04:35 · 1339 阅读 · 0 评论 -
Spark系类修炼---入门笔记6
核心内容: 1、Spark的概念 2、Spark与MapReduce的比较 3、Spark中RDD的相关概念 4、Spark shell的使用一、Spark的相关概念 上一讲学习了Spark集群的搭建,今天开始进一步接触Spark。 Spark的概念:Spark是分布式的、主要基于内存的、特别适合于迭代计算的大数据计算框架。 接下来从3个方面去理解Spark的概念: 分布式:所谓分布原创 2016-11-17 17:10:39 · 1596 阅读 · 0 评论 -
Spark系列修炼---入门笔记15
核心内容: 1、Spark架构入门笔记 2、ClusterManager–资源调度、Driver—作业运行调度的详解今天进一步深入学习了Spark,主要学习的内容为Spark的核心架构,好的,进入本篇文章的正题。 注意:本篇文章谈的是Spark的StanAlone模式。 先谈一下我自己对于Spark程序的运行机制: 1>用户的应用程序通过Spark的客户端向我们的Master提交程序原创 2016-11-30 15:26:19 · 2537 阅读 · 0 评论 -
Spark系列修炼---入门笔记16
核心内容: 1、Hadoop1.0,Hadoop2.0,Spark的作业运行机制图解MapReduce程序的编写流程: Hadoop1.0的作业运行机制: Hadoop2.0作业运行机制: Spark的作业运行机制: OK!原创 2016-11-30 15:51:51 · 1654 阅读 · 0 评论 -
Spark系列修炼---入门笔记17
核心内容: 1、RDD入门笔记1今天又迈出了一步—涉猎RDD,好吧,进入文章的正题:RDD是一个容错的,并行的数据结构,可以控制将数据存储到磁盘或内存中,能够获取数据的分区。通常数据处理的模型包括:迭代计算、关系查询、MapReduce、流失处理等。Hadoop采用MapReduce模型,Storm采用流式处理模型,而Spark则实现了以上所有的数据处理模型。(呵呵,Spark就是厉害啊!)首先我原创 2016-12-02 15:14:45 · 2225 阅读 · 0 评论 -
Spark系列修炼--入门笔记7
核心内容: 1、Scala IDEA安装过程 2、Spark的3种运行模式 3、Scala IDEA编写Spark的WordCount程序(本地模式与集群模式)今天学习了用Scala IEDA去编写Spark的第一个程序WordCount,整理一下主要的学习笔记。 一、Scala IDEA的安装过程 直接上截图: 点击之后就可以下载到我们的Scala IDEA: 在S原创 2016-11-19 17:03:40 · 1475 阅读 · 0 评论 -
Spark系列修炼---入门笔记18
核心内容: 1、Spark当中常用的3种创建RDD的方式 2、自定义分片个数(并行度)今天又学习了一讲Spark(Spark本身就是一个计算框架,就是一个JVM计算框架而已),2016年12月份注定不平凡了,希望在2016年的最后一个月份多做一些有意义的事情,毕业在即…… 好了,进入文章的正题,从学习Spark到现在,一直离不开一个概念RDD(弹性分布式数据集),今天主要学习关于RDD的三种创原创 2016-12-03 21:01:08 · 2272 阅读 · 0 评论 -
Spark系列修炼---入门笔记19
核心内容: 1、RDD的一个实战案例OK,今天是2016年12月4日了,12月份注定不会太轻松,很多事情就像是多线程一样并行的进行执行,好的,进入本次博客的正题! RDD本身有3种操作方式: ①基本的Transformation(数据状态的转换即所谓的算子) 如:map、flatMap、textFile等等。 ②Action(触发具体的Job,获得相应的结果) 如:reduce、coll原创 2016-12-04 17:51:33 · 3071 阅读 · 2 评论 -
Spark系列修炼---入门笔记9
核心内容: 1、Spark中map与flatMap的区别 2、Spark中RDD的核心概念1、Spark中map与flatMap的区别①map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;flatMap函数则是两个操作的集合,即先映射再扁平化:首先,同map函数一样,对每一条输入进行指定的操作,然后为每一条输入返回一个对象;然后将所有对象合并成一个对象. ②flatMap与m原创 2016-11-22 15:39:54 · 924 阅读 · 0 评论 -
Spark系列修炼---入门笔记20
1、reduceByKey到底是Action还是Transformation的讨论最近在学习Spark的时候,对reduceByKey是Action还是Transformation产生了迷惑!最终联系到了《深入理解Spark》的作者耿嘉安。 最终得到了作者的回复:原创 2016-12-05 13:29:41 · 2197 阅读 · 0 评论 -
Could not find the main class: org.apache.spark.launcher.Main. Program will exit.
核心内容: 1、 Could not find the main class: org.apache.spark.launcher.Main. Program will exit. 2、 failed to launch org.apache.spark.deploy.worker.Worker:今天在安装Spark的伪分布运行模式下,启动hadoop之后总是报一个错误: 即启动的过程中原创 2016-11-21 15:25:01 · 10000 阅读 · 2 评论 -
Spark系列修炼---入门笔记1
今天是2016年11月10日,终于开始学习Spark了,为将来能成为一个大数据架构师而不断努力!整理一下今天需要梳理的笔记: 1、scala中readLine()方法的使用:object App1{ def main(args:Array[String]):Unit= { //以前的用法 var line = readLine()原创 2016-11-10 20:28:11 · 1573 阅读 · 0 评论