Spark基础

本文介绍了Spark的基础知识,包括其作为大规模数据处理引擎的角色,与MapReduce的相似性,以及Spark的特点,如基于内存计算的高速度和易用性。文章详细阐述了Spark的体系结构,包括主从结构中的Master和Worker节点,以及Application、Driver Program、Executor等核心概念。此外,还对比了Spark与Hadoop,突显Spark的内存优势、通用性和容错性。
摘要由CSDN通过智能技术生成

1、什么是Spark?
Spark是一个针对大规模数据处理的快速通用引擎。
类似MapReduce,都进行数据的处理

2、Spark的特点:
(1)基于Scala语言、Spark基于内存的计算
(2)快:基于内存
(3)易用:支持Scala、Java、Python
(4)通用:Spark Core、Spark SQL DataFrames(结构化数据查询)、Spark Streaming(支持高吞吐量、支持容错的实时流数据处理)、 MLlib(Spark 生态系统里用来解决大数据机器学习问题的模块)、Graphx(构建于Spark上的图计算模型),SparkR(一个R语言包,它提供了轻量级的方式使得可以在R语言中使用 Spark
)
(5)兼容性:完全兼容Hadoop

3、Spark体系结构:主从结构
客户端通过SparkContext对象提交任务申请,master接收客户端请求,根据客户端请求分配相应的资源给worker, worker启动Executor,正真提交任务的时候,直接由客户端提交给worker,不通过master。
(1)主节点:Master
(2)从节点:Worker

4、 Spark中的基本概念
在Spark中,有下面的基本概念。
Applica

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值