当前搜索:

Spark系列修炼---入门笔记28

核心内容: 1、Spark的Shuffle机制Shuffle是什么? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算,Shuffle是MapReduce框架中的一个特定的阶段,介于Map阶段和Reduce阶段之间,当Map的输出结果要被Reduce使用时,就必须经过Shuffle,由于Shuffle涉及到了磁盘IO的读...
阅读(1217) 评论(0)

Spark系列修炼---入门笔记27

核心内容: 1、Spark中的pipline的再度思考 2、Spark中的窄依赖和宽依赖的物理执行内幕 3、Spark中的Job提交流程今天又开始了我的Spark,好的,进入正题……. 回忆一下经典的WordCount程序:package com.appache.spark.appimport org.apache.spark.rdd.RDD import org.apache.spark....
阅读(974) 评论(0)

Spark系列修炼---入门笔记26

核心内容: 1、Spark中的RDD的依赖关系 2、RDD依赖关系下的数据流视图 3、Spark中的作业调度机制今天是Spark第二小阶段的第2次课,整体来说基本上都掌握了,在2016年的最后10天了,希望Spark可以多学点东西,OK,进入本次博客的正题! 由于RDD是粗粒度的操作数据集,每个Transformation操作都会生成一个新的RDD,所以RDD之间就会形成类似流水线似的前后依...
阅读(960) 评论(0)

Spark系列修炼---入门笔记25

核心内容: 1、Spark的体系结构详解 3、Spark Job的逻辑视图和物理视图解析今天开始进入Spark的第二个小阶段了,坚持、坚持、在坚持! OK,今天主要是学习Spark的体系结构,好的,先用一张图描绘一下Spark的主从式体系结构: 上面的这张图是我自己画的,我又从网上重新下载了一幅图: 从上面这两张图中可以看出,Spark的体系结构是一个主从式的结构,包括Driver...
阅读(1153) 评论(1)

Spark系列修炼---入门笔记24

核心内容: 1、Spark中基础Top N算法实战 2、Spark中分组Top N算法实战 3、排序算法RangePartitioner内幕解密最近周围的人都在陆陆续续的找工作,本来之前也有一些小的躁动、有点小发慌,但是随着Hadoop1.0、Hadoop2.0与Yarn、Hbase、Hive等的不断深入,这种躁动渐渐的消失了下来,因为能感觉到自己现在已经很有实力了,学习Spark到今天也有2...
阅读(1357) 评论(0)

Spark系列修炼---入门笔记23

核心内容: 1、Spark中的基础排序算法 2、Spark中的二次排序算法 3、Spark中排序的相关思考 好的,今天我们进入Spark的二次排序,当然我们还是先看最简单的基础排序算法…… 排序的地位:排序非常重要,但是排序不是最常用的,一般超过3维的排序可能性不算太大,其实超过二次排序的可能性也不太大。 实例程序1:基于单一key的简单排序 注意:凡是涉及到排序,数据必须是ke...
阅读(1452) 评论(0)

Spark系列修炼---入门笔记22

核心内容: 1、Spark中的持久化 2、Spark中的广播 3、Spark中的累加器OK,其实这篇博客应该是昨天就完成的,所以自我反省一下,最近这段时间任务比较多,也在一直准备数据结构的事情,估计还有6天左右数据结构与Spark就开始并行学习了,其实当时学完C语言就应该学习数据结构的,呵呵,还好自己当时基础扎实,OK,进入本篇博客的正题…… (一)Spark中的持久化 在Spark当中,...
阅读(2156) 评论(0)

Spark系列修炼---入门笔记21

核心内容: 1、Spark中常用的Transformation算子: map、filter、flatMap、reduceByKey、groupByKey、join、cogroup详解 2、Spark中常用的Action算子:reduce、collect、foreach、savaAsTextFile、sortByKey详解Spark中常用的Transformation算子用法详解(这些算子都是我...
阅读(2028) 评论(0)

Spark系列修炼---入门笔记20

1、reduceByKey到底是Action还是Transformation的讨论最近在学习Spark的时候,对reduceByKey是Action还是Transformation产生了迷惑!最终联系到了《深入理解Spark》的作者耿嘉安。 最终得到了作者的回复:...
阅读(1872) 评论(0)

Spark系列修炼---入门笔记19

核心内容: 1、RDD的一个实战案例OK,今天是2016年12月4日了,12月份注定不会太轻松,很多事情就像是多线程一样并行的进行执行,好的,进入本次博客的正题! RDD本身有3种操作方式: ①基本的Transformation(数据状态的转换即所谓的算子) 如:map、flatMap、textFile等等。 ②Action(触发具体的Job,获得相应的结果) 如:reduce、coll...
阅读(2833) 评论(2)

Spark系列修炼---入门笔记18

核心内容: 1、Spark当中常用的3种创建RDD的方式 2、自定义分片个数(并行度)今天又学习了一讲Spark(Spark本身就是一个计算框架,就是一个JVM计算框架而已),2016年12月份注定不平凡了,希望在2016年的最后一个月份多做一些有意义的事情,毕业在即…… 好了,进入文章的正题,从学习Spark到现在,一直离不开一个概念RDD(弹性分布式数据集),今天主要学习关于RDD的三种创...
阅读(1937) 评论(0)

Spark系列修炼---入门笔记17

核心内容: 1、RDD入门笔记1今天又迈出了一步—涉猎RDD,好吧,进入文章的正题:RDD是一个容错的,并行的数据结构,可以控制将数据存储到磁盘或内存中,能够获取数据的分区。通常数据处理的模型包括:迭代计算、关系查询、MapReduce、流失处理等。Hadoop采用MapReduce模型,Storm采用流式处理模型,而Spark则实现了以上所有的数据处理模型。(呵呵,Spark就是厉害啊!)首先我...
阅读(1797) 评论(0)

Spark系列修炼---入门笔记16

核心内容: 1、Hadoop1.0,Hadoop2.0,Spark的作业运行机制图解MapReduce程序的编写流程: Hadoop1.0的作业运行机制: Hadoop2.0作业运行机制: Spark的作业运行机制: OK!...
阅读(1447) 评论(0)

Spark系列修炼---入门笔记15

核心内容: 1、Spark架构入门笔记 2、ClusterManager–资源调度、Driver—作业运行调度的详解今天进一步深入学习了Spark,主要学习的内容为Spark的核心架构,好的,进入本篇文章的正题。 注意:本篇文章谈的是Spark的StanAlone模式。 先谈一下我自己对于Spark程序的运行机制: 1>用户的应用程序通过Spark的客户端向我们的Master提交程序...
阅读(1698) 评论(0)

Spark系列修炼---入门笔记14

核心内容: 1、如何搭建HA下的Spark集群模式好了,进入本篇博客的正题,本篇博客主要内容为搭建HA下的Spark集群,在搭建之前,先看一下Spark的运行模式: 从运行模式上我们可以看出,我们需要先搭建Zookeeper集群,这里就不在详细叙述Zookeeper集群的的搭建过程了,但是要强调一下Zookeeper集群在安装的时候需要注意的3个方面: ①Zookeeper集群是单独安装的...
阅读(1492) 评论(0)
29条 共2页1 2 下一页 尾页
    个人资料
    • 访问:569600次
    • 积分:8610
    • 等级:
    • 排名:第2562名
    • 原创:328篇
    • 转载:87篇
    • 译文:0篇
    • 评论:99条
    最新评论