![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
犀牛_2046
路漫漫其修远兮,吾将上下而求索!
展开
-
Spark(十四)实时流计算Spark Streaming原理
目录1.Spark Streaming简介1.1 概述1.2 术语定义1.3 Storm和Spark Streaming比较2.运行原理2.1 Streaming架构2.2 编程模型2.2.1 如何使用Spark Streaming2.2.2DStream的输入源2.2.3DStream的操作2.3容错、持久化和性能调优2.3.1容错2...转载 2019-10-09 21:39:24 · 1030 阅读 · 0 评论 -
Spark(十三)Spark Streaming读取Kafka数据的两种方式(2)
目录1.摘要2.Reciver-base3.Direct4.Receive_base和Direct两种方式的优缺点:1.摘要 Spark Stream提供了两种获取数据的方式,一种是同storm一样,实时读取缓存到内存中;一种是定时批量读取。这两种方式分别是:Receiver-base和Direct。2.Reciver-base Spar...转载 2019-10-03 17:54:04 · 699 阅读 · 0 评论 -
Spark(十二)Spark Streaming消费Kafka数据的两种方式(1)
目录1.摘要2.基于Receiver的方式3.基于Direct的方式4.案例参考1.摘要Spark-Streaming获取kafka数据的两种方式Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。2.基于Receiver的方式 ...转载 2019-10-03 15:27:19 · 648 阅读 · 0 评论 -
Spark(十一)Spark 学习: spark 原理简述与 shuffle 过程介绍
目录Spark学习简述总结1 引言1.1 Hadoop和Spark的关系2Spark 系统架构2.1 Spark运行原理3 RDD初识4.Shuffle和Stage5.性能优化5.1 缓存机制和cache的意义5.2 Shuffle的优化5.3 资源参数调优5.4 小结Spark学习简述总结1 引言1.1 Hadoop和Spark的关系...转载 2019-10-02 09:50:23 · 420 阅读 · 0 评论 -
Spark(十)Spark Shuffle原理及参数调优
目录1 Shuffle原理1.1 MapReduce的shuffle原理1.1.1 map task端操作1.1.2 reduce task端操作1.2 Spark现在的SortShuffleManager1.2.1 SortShuffleManager运行原理1.2.2 普通运行机制1.2.3 bypass机制2 Shuffle操作问题解决2.1数据倾斜...转载 2019-09-30 19:29:53 · 335 阅读 · 0 评论 -
Spark(九)Spark的shuffle算子
1.去重def distinct()def distinct(numPartitions: Int)2.聚合def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Partitioner, func: (V, V) => V): R...转载 2019-09-30 12:48:24 · 176 阅读 · 0 评论 -
Spark(八)Spark的常用算子总结
目录1.Spark算子的分类1.1 从大方向来说,Spark算子大致可以分为两类:1.2 从小方向来说,Spark算子大致可以分为以下三类:1.3 Spark算子分类及功能2.Spark算子的功能详解2.1 Transformations算子2.2 Actions算子1.Spark算子的分类1.1 从大方向来说,Spark算子大致可以分为两类:(1)Tra...转载 2019-09-30 11:58:26 · 840 阅读 · 0 评论 -
Spark(七)Spark中如何划分Stage(2)?
1.RDD运行基本流程从HDFS中读取文件后,创建 RDD 对象。 DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG。 每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。以下面一个按 A-Z 首字母分类,查找相同首字...转载 2019-09-29 17:49:37 · 231 阅读 · 0 评论 -
Spark(六)Spark中如何划分Stage(1)?
1.Stage基本概念(1)一个Job被拆分为多组Task。 在Spark中有两类task,一类是shuffleMapTask,一类是resultTask,第一类task的输出是shuffle所需数据,第二类task的输出是result,(2)每组任务被称为一个Stage,就像Map Stage、Reduce Stage。 Stage的划分在RDD的论文中有详细的介绍...转载 2019-09-29 17:20:51 · 678 阅读 · 0 评论 -
Spark(五)Spar几个基本概念?
1.Spark的基本概念Driver Program,Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的含义。官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html):Driver Program: The process runnin...转载 2019-09-29 16:09:55 · 476 阅读 · 0 评论 -
Spark(四)Spark血统概念——宽依赖和窄依赖
目录1.血统概念2.宽依赖和窄依赖3.宽依赖与窄依赖之间的对比1.血统概念利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现,Spark的主要区别在于它处理分布式运算环境下的数据容错性(节点实效/数据丢失)问题时采用的方案。为了保证RDD中数据的鲁棒性,RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的...原创 2019-09-29 10:03:44 · 2114 阅读 · 2 评论 -
Spark(三)Spark提交作业参数
目录1.num-executors2.executor-memory3.executor-cores4.driver-memory5.spark.default.parallelism6.spark.storage.memoryFraction7.spark.shuffle.memoryFraction8.total-executor-cores9.资源参数参考...转载 2019-09-29 09:34:12 · 939 阅读 · 0 评论 -
Spark(二)Spark任务提交方式和执行流程
目录1 Spark中的基本概念2 Spark的运行流程2.1 说明2.2 图解2.3 Spark运行架构特点2.4 DAGScheduler2.5 TaskScheduler2.6 SchedulerBackend2.7 Executor3 Spark在不同集群中的运行架构3.1 Spark On Standalone运行过程3.2 Spark On...转载 2019-09-29 00:46:17 · 1232 阅读 · 0 评论 -
Spark(一)Spark集群部署模式
目录1.Standalone模式2.Spark On Mesos模式3.Spark On YARN模式总结:目前Apache Spark支持三种集群部署模式:分别是standalone、spark on mesos和spark on YARN。其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理;后两种是未来的主要发展趋势,部分容错性和资源管理交...转载 2019-09-26 17:13:38 · 801 阅读 · 0 评论