大数据生态与spark简介

最新推荐文章于 2022-07-14 12:50:26 发布

&Lily

最新推荐文章于 2022-07-14 12:50:26 发布

阅读量209

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/python_newbie1/article/details/114226237

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

大数据生态

大数据的属性
在这里插入图片描述
大数据的影响
在思维方式方面，大数据完全颠覆了传统的思维方式：
全样而非抽样
效率而非精确
相关而非因果

大数据关键技术：分布式存储，分布式处理

代表性大数据技术：Hadoop，spark，flink，beam

spark

spark的主要特点：
运行速度快：使用DAG执行引擎以支持循环数据流与内存计算
容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程
通用性：Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件
运行模式多样：可运行于独立的集群模式中，可运行于Hadoop中，也可运行于Amazon EC2等云环境中，并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源

spark架构图
在这里插入图片描述
Hadoop与spark的区别
Hadoop存在缺点，表达能力有限，磁盘IO开销大，延迟高，任务之间的衔接涉及IO开销
，在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务
相比于Hadoop MapReduce，Spark主要具有如下优点：
Spark的计算模式也属于MapReduce，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活
Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高
Spark基于DAG的任务调度执行机制，要优于Hadoop MapReduce的迭代执行机制

spark运行架构
RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型
DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系
Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行Task
应用（Application）：用户编写的Spark应用程序
任务（ Task ）：运行在Executor上的工作单元
作业（ Job ）：一个作业包含多个RDD及作用于相应RDD上的各种操作
阶段（ Stage ）：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为阶段，或者也被称为任务集合，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

spark部署方式
Spark支持三种不同类型的部署方式，包括：
Standalone（类似于MapReduce1.0，slot为资源分配单位）
Spark on Mesos（和Spark有血缘关系，更好支持Mesos）
Spark on YARN