Spark
JunMoXiaoPro
这个作者很懒,什么都没留下…
展开
-
spark的认识(一)
spark的认识(一)1、主要内容 1、掌握spark相关概念 2、掌握搭建一个spark集群 3、掌握编写简单的spark应用程序 2、spark概述2.1 spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是一...原创 2019-03-14 09:08:00 · 713 阅读 · 1 评论 -
Spark的认识(二)
Spark的认识(二)1、主要内容 1、掌握RDD底层原理 2、掌握RDD常用的算子操作 3、掌握RDD的依赖关系 4、掌握RDD的缓存机制 5、掌握划分stage 6、掌握spark任务调度流程 2、RDD概述2.1 RDD是什么RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是S...原创 2019-03-14 09:26:53 · 305 阅读 · 0 评论 -
Spark的认识(三)
Spark的认识(三)1、本文内容 1、掌握sparkSQL原理 2、掌握DataFrame和DataSet数据结构和使用方式 3、掌握sparksql代码开发 2、sparksql概述2.1 sparksql前世今生 shark是专门为spark设计的大数据仓库系统 shark与hive代码兼容,同时它也依赖于spark的版本 后期...原创 2019-03-14 10:05:17 · 434 阅读 · 0 评论 -
Spark的认识(四)
Spark的认识(四)1、本文内容 1、掌握SparkStreaming底层原理 2、掌握Dstream常用操作 3、掌握SparkStreaming整合flume 4、掌握SparkStreaming整合kafka 2、SparkStreaming概述2.1 什么是sparkStreaming Spark Streaming makes it...原创 2019-03-14 10:15:23 · 356 阅读 · 0 评论 -
Spark的shuffle和原理分析
Spark的shuffle和原理分析1 、概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量...原创 2019-03-14 10:26:17 · 259 阅读 · 0 评论 -
Spark任务调度和资源分配
Spark任务调度和资源分配1、Spark调度模式 FIFO和FAIR Spark中的调度模式主要有两种:FIFO和FAIR。 默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行。 而FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的调度池权重不同,任务可以按照权重来决定执行顺序。2、资源分配概述...原创 2019-03-14 10:28:03 · 849 阅读 · 0 评论 -
Spark面试问题收集
Spark面试问题spark面试问题1、spark中的RDD是什么,有哪些特性 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distributed:分布式,可以并行在集群计算 ...原创 2019-03-14 10:39:37 · 257 阅读 · 0 评论