Spark的那些事(一)一文了解spark

最新推荐文章于 2024-07-31 13:16:03 发布

小流_跬步

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量1.2k

点赞数 1

分类专栏： Spark Spark的那些事文章标签： Spark 部署方式 sink source spark简介

本文链接：https://blog.csdn.net/zhongyuan_1990/article/details/79064191

版权

本文介绍了Spark作为一个快速的集群实时计算系统，支持SQL查询、机器学习、图形处理和实时计算。重点讨论了Spark SQL和Structured Streaming，包括它们在查询、数据处理和输出模式的应用，以及与HDFS、HBase等系统的集成。此外，还概述了Spark的基本架构、运行流程和部署模式。

摘要由CSDN通过智能技术生成

Spark是一个快速的集群化的实时计算系统。支持Java, Scala, Python 和R语言的高级API。

一 Spark生态：

支持Spark Sql用于sql和结构化数据查询处理；支持MLlib用于机器学习；支持GraphX用于图形处理；支持Spark Streaming和Structured Sql(spark2.1.1版本发布)用于实时计算。（其中，我们使用的Spark功能主要是Spark Sql和Structured Sql。其中Spark sql用于查询模块，可以联合多个数据源进行查询。Structured Sql用于流式数据处理。）

部署方式有：
1、本地运行模式：new SparkConf().setAppName(“sparkName”)
                 .setMaster(config.getString(“local[*]”))） 

2、Stanalone模式：
              1）由master/slaves服务组成的
      2）各个节点上的资源被抽象成粗粒度的slot，有多少slot就能同时运行多少task。 
              3）部署时通过spark-env.sh和slave配置文件进行配置，使用start-all.sh可以一键启动。


3、EC2模式：
      部署于云端。


4、Spark on Mesos模式：
 支持粗粒度模式和细粒度模式。
1）粗粒度模式：应用程序的各个任务正式运行之前，