SPARK必备概念

最新推荐文章于 2019-10-22 08:41:00 发布

O白马非马O

最新推荐文章于 2019-10-22 08:41:00 发布

阅读量490

点赞数

分类专栏：数据挖掘 spark 文章标签： spark 大数据 mapreduce

本文链接：https://blog.csdn.net/dahunbi/article/details/71481401

版权

数据挖掘同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

spark

5 篇文章 0 订阅

订阅专栏

RDD （resilient distributed dataset）弹性分布式数据集

One stack to rule them all（一个技术堆栈容纳各种数据处理技术）
包括的大数据计算模型：MapReduce、Streaming、SQL、Machine Learning、graph Processing

对应的Spark四大子框架：Spark Streaming,Spark SQL,Mllib, GraphX

Spark streaming ：流计算框架
Spark SQL：结构化数据SQL查询与分析的查询引擎
MLlib，MLbase：具有机器学习功能的系统MLbase和底层的分布式机器学习库Mllib
GraphX: 并行图计算框架
BlinkDB：近似计算查询引擎
Tachyon：内存分布式文件系统
Mesos：资源管理框架
统一构成了Spark的整个生态系统称为伯克利数据分析栈（BDAS）
支持的语言：Scala、Python交互式语言；Java编译式语言

RDD编程模型

Spark的有向无环图（directed acydic graph, DAG）调度及RDD间的Lineage（血统）关系
RDD抽象类的5大部分：
1. getPartitions方法：分区列表（数据块列表）
2. compute方法：计算每个分片的函数
3. getDependencies方法：对父RDD的依赖列表
4. partitioner：Key-Value（键-值）RDD的分区器
5. getPreferedLocations方法：每个数据分片的预定义地址列表（如HDFS上的数据块的地址）
前三个用于描述RDD间Lineage（血统）信息，后两个用于优化执行。
RDD操作：
Transformation和Action，为每个Action会起一个job，只有在action触发后才会transformation（lazy execution 惰性执行）
RDD的依赖关系：
窄依赖：子RDD的每个分区依赖于常数个父分区（与数据规模无关）
宽依赖：子RDD的每个分区依赖于所有父RDD的分区
DAG：
DAG调度时会根据Shuffle将job划分成stage