【无标题】

最新推荐文章于 2024-09-28 14:24:44 发布

Tom blibe

最新推荐文章于 2024-09-28 14:24:44 发布

阅读量231

点赞数 2

文章标签： spark

本文链接：https://blog.csdn.net/m0_64371480/article/details/139754602

版权

项目第十天——学习Spark相关知识

而Spark既可以做离线计算（Spark SQL），又可以做实时计算（Spark Streaming），它们底层都使用的是Spark的核心（Spark Core）。
Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API，以及一个支持通用的执行图计算的优化引擎。它还支持高级工具，包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX，以及用于实时流处理的Spark Streaming。
Spark的主要特点：快速，易用，通用，到处运行
Spark是由多个组件构成的软件栈，Spark 的核心（Spark Core）是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用进行调度、分发以及监控的计算引擎。
Spark主要有三种运行模式：本地（单机）模式，Spark Standalone模式， Spark On YARN模式。
Spark Standalone模式为经典的Master/Slave架构，资源调度是Spark自己实现的。在Standalone模式中，根据应用程序提交的方式不同，Driver（主控进程）在集群中的位置也有所不同。应用程序的提交方式主要有两种：client和cluster，默认是client。可以在向Spark集群提交应用程序时使用–deploy-mode参数指定提交方式。