![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark生态
萧邦主
学生一枚,学习大数据ing.....这是一个大数据的时代!!
展开
-
Spark学习之路(三):剖析RDD的概念及用三种方式创建RDD
内容简介一、RDD的基本概念二、创建RDD1.使用三种方式创建RDD2.使用Java演示三种方式创建RDD3.使用Scala演示三种方式创建RDD三、总结一、RDD的基本概念RDD ,弹性分布式数据集, 是分布式内存的一个抽象概念,是Spark中最为基本也最为重要的一个抽象,如果说Java的哲学是“万物皆对象”的话,可以笼统地认为Spark的哲学是“万物皆RDD”,这句话的意思是在Spark...原创 2019-06-26 00:19:00 · 852 阅读 · 0 评论 -
Spark学习之路(十 一):精通Spark核心编程之内核架构剖析
内容简介一、内核架构剖析二、总结一、内核架构剖析在Spark学习之路(二):Spark核心术语详讲及作业提交流程一文中,已经详细介绍了Spark的核心术语,并且结合术语来简单粗略介绍了二、总结...原创 2019-07-26 15:32:40 · 488 阅读 · 0 评论 -
Spark学习之路(九):使用分组取TopN算法配合Spark算子实现复杂业务逻辑案例实战
内容简介一、分组取TopN算法二、需求分析及实现逻辑三、需求分步骤实现详细代码讲解1.从数据源读取数据创建RDD2.处理原始数据,创建元组RDD3.将数据以班级id分组4.计算每个班级的平均分,并将平均分作为Key,班级ID作为Value创建RDD4.按照平均分降序排序并取出平均分前三的班级,创建RDD5.将Top3元组的Key与Value互换后使用join操作得到Top3班级所有学生的信息6.对...原创 2019-07-20 22:17:20 · 799 阅读 · 1 评论 -
Spark学习之路(十 二):精通Spark核心编程之SparkContext原理剖析与核心源码分析
内容简介一、SparkContext原理剖析二、SparkContext核心源码分析三、总结一、SparkContext原理剖析SparkContext是Spark程序的入口点,我们在编写Spark程序代码的时候所做的第一件事情就是创建一个SparkContext的实例对象, SparkContext表示与Spark的连接群集,可用于在该群集上创建RDD,累加器和广播变量。值得注意的是每个J...原创 2019-07-28 23:56:41 · 311 阅读 · 0 评论 -
Spark学习之路(七):RDD窄依赖与宽依赖深度剖析
内容简介一、窄依赖与宽依赖剖析二、窄依赖与宽依赖的区别三、窄依赖算子与宽依赖算子四、总结一、窄依赖与宽依赖剖析在之前的文章中曾对RDD进行剖析,详情看Spark学习之路(三):剖析RDD的概念及用三种方式创建RDD,知道RDD与RDD之间是存在依赖关系(也叫血缘关系)的,每当RDD调用transform算子生成另一个RDD时,这两个RDD之间就存在依赖关系,事实上,还可以对两个RDD之间的依...原创 2019-07-11 14:58:12 · 507 阅读 · 1 评论 -
Spark学习之路(六):深入剖析与使用RDD的持久化机制和Checkpoint机制
内容简介一、持久化机制Persist二、检查点机制Checkpoint三、持久化与Checkpoint的区别四、代码演示五、总结一、持久化机制Persist所谓RDD的持久化,其实就是对RDD进行缓存,它是Spark重要的优化手段之一。为什么需要对RDD进行缓存呢?这与Spark作业的执行机制有关,我们知道,Spark程序只有遇到action算子的时候才会执行程序,具体的执行算法大致如下:S...原创 2019-07-10 16:51:38 · 909 阅读 · 0 评论 -
Spark学习之路(五):使用Java和Scala编写按词频降序排序的WordCount程序
内容简介一、按词频降序排序的WordCount思路分析二、使用Java编写程序三、使用Scala编写程序四、总结一、按词频降序排序的WordCount思路分析WordCount,也叫词频统计程序是大数据里面一个最简单的入门程序,但是“麻雀虽小,五脏俱全”,WordCount涵盖了大数据处理的核心思想,因而非常之重要。而加入了排序功能之后的WordCount就更加具有价值了。现在分析按词频降序...原创 2019-06-29 15:50:02 · 1288 阅读 · 0 评论 -
Spark学习之路(八):分别使用Java与Scala实现Spark二次排序
内容简介一、Spark二次排序的概念二、实现二次排序的详细步骤(Java语言)三、二次排序代码演示1.Java版本2.Scala版本四、总结一、Spark二次排序的概念排序操作是数据处理过程中的常用操作步骤,Spark提供了诸如sortBy算子和sortByKey算子来实现排序,但是存在一些不足的地方,此类算子只能针对一个排序的依据进行排序,比如说sortByKey算子仅仅只能根据Key来排...原创 2019-07-13 15:54:45 · 479 阅读 · 0 评论 -
Spark学习之路(四):深度图解Spark算子运作原理
内容简介一、Spark算子的概念二、Spark常用算子概览1. transform算子2.action算子三、Spark常用算子原理图解1.transform算子2.action算子四、总结一、Spark算子的概念在Spark中提供了大量的算子来操作RDD,所谓算子可以理解为操作RDD的方法或者函数。算子大致分为两种类型:transform算子和action算子,所谓transform算子是...原创 2019-06-28 02:17:27 · 1562 阅读 · 1 评论 -
Spark学习之路(二):Spark核心术语详讲及作业提交流程
内容简介一、初识Spark二、Spark核心术语详讲三、Spark作业提交流程四、总结一、初识SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于...原创 2019-06-25 00:41:39 · 519 阅读 · 0 评论 -
Spark学习之路(一):Spark基于Standalone模式完全分布式搭建集群
Spark完全分布式搭建一、Spark集群的部署方式1.Standalone模式2.Spark On YARN模式3.Spark On Mesos模式二、基于Standalone模式部署集群1.下载并解压Spark安装包2.配置环境变量3.置Spark的配置文件4. 启动集群三、测试集群四、总结一、Spark集群的部署方式1.Standalone模式与MapReduce1.0框架类似,Sp...原创 2019-06-23 22:54:08 · 1430 阅读 · 0 评论 -
Spark学习之路(十):Spark性能优化原理分点详细讲解与参数配置(纯干货)
内容简介一、Spark性能优化概览二、Spark性能优化分点讲解与参数配置1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化和Checkpoint操作4、合理使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高程序执行的并行度7、使用广播操作共享数据8、数据本地化9、合理使用reduceByKey算子和groupByKey算子10、Shuffle调优三、总结一、Sp...原创 2019-07-23 00:41:41 · 860 阅读 · 1 评论