![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark总结
铁头娃1740
若不是生活所迫,谁愿意把自己弄的一身才华
展开
-
Spark基础教程以及内核解析
SparkSpark的四大组件:SparkSqL,SparkStreaming,SparkMLlib,SparkGraphx基本概念:Spark是一种快速、通用的、可扩展的大数据分析引擎;是基于内存的分布式并行计算的大数据计算框架。为什么学习SaprkSpark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分...原创 2019-08-06 16:05:08 · 225 阅读 · 0 评论 -
Spark计算引擎RDD详解
一、Spark计算模型RDD二、 弹性分布式数据集RDD2. RDD概述2.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内...原创 2019-08-06 16:21:07 · 459 阅读 · 0 评论 -
Spark运行机制详解
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行...原创 2019-08-06 16:26:48 · 727 阅读 · 0 评论 -
Spark计算引擎之SparkSQL详解
一、Spark SQL二、Spark SQL1.Spark SQL概述1.1.Spark SQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Shark...原创 2019-08-06 16:44:48 · 34754 阅读 · 3 评论 -
Spark计算引擎之SparkStreaming详解
Spark Streaming流式处理1. Spark Streaming介绍1.1 Spark Streaming概述1.1.1什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据...原创 2019-08-06 17:06:41 · 826 阅读 · 0 评论 -
Spark面试问题整理(持续更新中......)
Spark应用转换流程 1、spark应用提交后,经历了一系列的转换,最后成为task在每个节点上执行 2、RDD的Action算子触发Job的提交,生成RDD DAG 3、由DAGScheduler将RDD DAG转化为Stage DAG,每个Stage中产生相应的Task集合 4、TaskScheduler将任务分发到Executor执行 ...原创 2019-08-07 09:22:25 · 12104 阅读 · 3 评论