大数据技术原理与应用 第三版 林子雨 期末复习(五)第十章 SPARK
简介
spark是基于内存的大数据分布式并行计算框架,用于构建复杂的低延迟的数据分析应用
spark特点
运行速度快
容易使用
通用性好
运行模式多样
spark与Hadoop对比
Hadoop缺点
表达能力有限
磁盘IO开销大
延迟高
spark优点
spark计算模式属于MapReduce但是比MapReduce灵活
spark基于内存进行运算,所以计算速度快
spark具有基于DAG的任务调度执行机制,优于MapReduce迭代执行机制
RDD
RDD概念
spark的核心建立在统一抽象的rdd之上,简单来说一个RDD就是一个分布式对象合集,本质上是一个只读的分区记录合集
RDD有两种操作转换与执行,在转换时不尽兴计算接受一个RDD返还也是一个RDD二行动操作则执行计算操作,接受一个RDD同时返还数值
RDD间存在依赖关系分为宽依赖与窄依赖
宽依赖:一对多
窄依赖:多对一、一对一