一、Spark是什么
一、定义
Apache Spark是用于大规模数据处理的统一分析引擎
二、Spark更快的原因
-
数据结构(编程模型):Spark框架核心
-
RDD:弹性分布式数据集,认为是列表List
-
Spark 框架将要处理的数据封装到集合RDD中,调用RDD中函数处理数据
-
RDD 数据可以放到内存中,内存不足可以放到磁盘中
-
-
Task任务运行方式:以线程Thread方式运行
-
MapReduce中Task是以进程Process方式运行,当时Spark Task以线程Thread方式运行。
-
线程Thread运行在进程Process中,启动和销毁是很快的(相对于进程来说)。
-
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tF6JyHBy-1644111477332)(C:\Users\EuropeanSheik\AppData\Roaming\Typora\typora-user-images\image-20220125142329172.png)]
二、Spark和Hadoop的对比
一、二者各方面比较
Hadoop | Spark | |
---|---|---|
类型 | 基础平台,包含计算、存储、调度</ |