一、Spark概述
Apache Spark是一种闪电般的群集计算技术,专为快速计算而设计。 它基于Hadoop MapReduce,它扩展了MapReduce模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。
Spark的主要特点是其内存集群计算,可提高应用程序的处理速度,Spark旨在涵盖各种工作负载,如批处理应用程序,迭代算法,交互式查询和流式处理。 除了在各自的系统中支持所有这些工作负载之外,它还减少了维护单独工具的管理负担。
二、Apache Spark特性
1、Speed:Spark有助于在Hadoop集群中运行应用程序,内存速度提高了100倍,在磁盘上运行速度提高了10倍。 这可以通过减少对磁盘的读/写操作来实现。 它将中间处理数据存储在内存中。
2、支持多种语言:Spark提供Java,Scala或Python中的内置API。 因此,您可以使用不同的语