#何为spark
大规模数据处理和统一分析引擎
快速通用集群计算平台
快速通用的内存并行计算框架
用于开发大型,低延迟的数据分析应用程序
扩展了mapreduce计算模型
支持交互式查询和流处理
主要特点是内存计算,及时依靠磁盘进行复杂运算。
#为什么要学习spark
基于mapreduce的引擎往往都将运算中间结果存储在磁盘,以达到存储和容错的效果,磁盘读取的速度慢,spark正是弥补这些不足
#四大特性
高效性:先进的调度程序(有向无环图),查询优化程序,物理执行引擎实现高效性
易用性:支持java,python,scala等语言和80多种高级算法
通用性:提供统一平台来解决遇到的问题,批处理,交互式查询,流处理,流处理,机器学习,图形计算可以在同一个应用中无缝使用
兼容性:可以使用Hadoop的Yarn作为资源管理和调度器,也可以使用内置的资源管理和调度框架。
#spark组成
spark组成(BDAS)伯克利数据分析栈,主要组件
SparkCore
SparkSQL
SparkStreaming
MLlib
GraphX…