![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
南陵一梦
不喜张扬,戒骄戒躁,朝自己选择的方向慢慢前行。
展开
-
Spark概述
一. 什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLib、S...原创 2019-02-18 19:14:58 · 160 阅读 · 0 评论 -
spark任务submit到yarn集群需要经过的步骤
1.1 在client使用spark-submit提交一个spark任务后首先,每个任务会对应启动一个Driver进程 然后,Driver进程为spark任务申请资源:向集群管理器Resource Manager申请运行Spark作业需要使用的资源,主要的资源是Executor进程,Executor进程数量以及所需的CPU core可以通过spark任务设置的资源参数来指定; 其次,D...原创 2019-02-28 20:59:02 · 1916 阅读 · 0 评论 -
RDD与MapReduce对比
一. MapReduce的缺点 MapReduce给我们展示了一个简单通用和自动容错的批处理计算模型,但是对于其他类型的计算,比如迭代式、交互式和流式计算,MapReduce并不适合,其主要原因是MapReduce缺乏一种特性,即在并行计算的各个阶段进行有效的数据共享。 MapReduce将计算构建成一个有向无环图的任务集,而这只能允许它们有效地重新计算部分DA...原创 2019-05-01 11:13:29 · 1921 阅读 · 0 评论 -
RDD基本概念
RDD是弹性分布式数据集,即一个RDD代表一个被分区的只读数据集。一个RDD的生成只有两种途径,一是来自于内存集合和外部存储系统,另一种是通过转换操作来自于其他RDD,比如map、filter、join,等等。 RDD没必要随时被实例化,由于RDD的接口只支持粗粒度的操作(即一个操作会被应用在RDD的所有数据上),所有只要通过记录下这些作用在RDD之上的转换操作,...原创 2019-05-21 17:52:08 · 1810 阅读 · 0 评论 -
Spark运行模式及原理
1. Spark运行模式概述1.1 Spark运行模式列表 在实际应用中,Spark应用程序的运行模式取决于传递给SparkContext的MASTER环境变量的值,支持的MASTER环境变量由特定的字符串或URL组成,如下所示。Local[N]:本地模式,使用N个线程。 Local cluster[worker,core,Memory]:伪分布式模式,可以配置所需要启...原创 2019-06-26 17:20:49 · 406 阅读 · 0 评论