Spark的那些事(一)一文了解spark

本文介绍了Spark作为一个快速的集群实时计算系统,支持SQL查询、机器学习、图形处理和实时计算。重点讨论了Spark SQL和Structured Streaming,包括它们在查询、数据处理和输出模式的应用,以及与HDFS、HBase等系统的集成。此外,还概述了Spark的基本架构、运行流程和部署模式。
摘要由CSDN通过智能技术生成

Spark是一个快速的集群化的实时计算系统。支持Java, Scala, Python 和R语言的高级API。

一 Spark生态:
1111.png
支持Spark Sql用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持Spark Streaming和Structured Sql(spark2.1.1版本发布)用于实时计算。(其中,我们使用的Spark功能主要是Spark Sql和Structured Sql。其中Spark sql用于查询模块,可以联合多个数据源进行查询。Structured Sql用于流式数据处理。)

部署方式有:
1、本地运行模式:new SparkConf().setAppName(“sparkName”)
                 .setMaster(config.getString(“local[*]”))) 

2、Stanalone模式:
              1)由master/slaves服务组成的
      2)各个节点上的资源被抽象成粗粒度的slot,有多少slot就能同时运行多少task。 
              3)部署时通过spark-env.sh和slave配置文件进行配置,使用start-all.sh可以一键启动。


3、EC2模式:
      部署于云端。


4、Spark on Mesos模式:
 支持粗粒度模式和细粒度模式。
1)粗粒度模式:应用程序的各个任务正式运行之前,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值