什么是spark?
网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点:
- Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度
- Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎
- 与MapReduce不同,Spark的数据处理工作全部在内存中进行,只在一开始将数据读入内存,以及将最终结果持久存储时需要与存储层交互。所有中间态的处理结果均存储在内存中
- 除了引擎自身的能力外,围绕Spark还建立了包含各种库的生态系统,可为机器学习、交互式查询等任务提供更好的支持。相比MapReduce,Spark任务易于编写
- Spark的另一个重要优势在于多样性。该产品可作为独立集群部署,或与现有Hadoop集群集成。该产品可运行批处理和流处理,运行一个集群即可处理不同类型的任务
-
初级阶段:
-----------------------------------------------------------------------------------------------------
-
什么是spark: spark是一个实现快速并且通用的集群计算框架
-
核心功能组件:
-
spark core: 实现spark的基本功能
-
任务调度,内存管理,错误恢复,与存储系统交互等模块
-
RDD:[弹性分布式数据集]API定义
-
-
spark sql: spa
-
-