一.什么是Spark?
1.Apache Spark™ 是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。归纳总结就是Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。
2.Spark具有如下特点:1.快速 2.易用 3.通用 4.随处运行 5.代码简洁
3.Spark搭建的三种模式:(1)Local模式:是指运行在一台计算机上的模式,通常就是用于在本机上练手和测试。
(2)Standalone模式:是指使用Spark原生的资源管理器的集群运行模式,需要使用Master和Worker节点,其中,Master节点负责资源的控制、管理、监控集群中的Worker节点。
(3)YARN模式:是指使用Hadoop的YARN作为资源管理器的集群运行模式。
4.Spark生态圈中重要组件:
(1)Spark Core:提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,Spark Streaming,GraphX,MLlib 都是在Spark Core 的基础上进行扩展的。
(2)Spark SQL:Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。
(3)Spark Streaming:Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。
(4)Spark MLlib:MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能