Spark的生态圈
1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整的生态系统
2.Spark可以部署在资源管理器YARN之上,提供一站式大数据解决方案
3.Spark所提供的的生态系统可对应以下三种场景:
复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间
基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间
基于实时数据的数据处理:通常时间跨度在数百毫秒到数秒之间
4.Spark生态系统已经成为伯克利数据分析栈(BDAS)中重要的组成部分
5.Spark生态系统主要包括:
Spark Core
Spark SQL
Spark Streaming
MLlib
GraphX
Spark Core提供Spark最基础与最重要的功能,主要包括:
SparkContext:通常而言,Driver Application的执行与输出都是通过SparkContext来完成的,在正式提交Application之前,首先需要初始化SparkContext
只需要使用SparkContext提供的 API完成 功能开发
Spark Core中包含了对RDD的API定义
Spark Core提供了创建和操作这些集合的多个API
Spark SQL是Spark用来