Spark学习笔记(1)——Spark简介

本系列文章内容全部来自尚硅谷教学视频,仅作为个人的学习笔记

一、Spark的概念及与Hadoop的关系

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。和hadoop一样都是数据处理框架,hadoop出现时间较早,设计初衷是适用于一次性数据计算,而不是循环迭代式数据流的处理,Spark是在Hadoop的基础上进行了架构的改良。Hadoop与Spark的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘。因此在处理循环迭代式数据流时Spark的效率更高,带来的问题是要消耗更多的内存资源

Hadoop并不是一个单独的产品,而是一个生态系统,Spark 也是一样, 它们两套东西 。 Spark替代的是Hadoop中的MapReduce编程范式,不包括存储和资源管理模块,所以MapReduce中能做的,Spark基本都能做。

Spark与Hadoop组件生态分布图
在这里插入图片描述
Spark技术栈
在这里插入图片描述

参考文章:
1.大数据hadoop和spark的关系
2.Spark学习痛点和路线图

二、Spark的核心模块

在这里插入图片描述

Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL,Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的

Spark SQL

Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。

Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的 API。

Spark MLlib

MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能,还提供了一些更底层的机器学习原语。

Spark GraphX

GraphX 是 Spark 面向图计算提供的框架与算法库

参考资料
1.What is the difference between Spark Standalone, YARN and local mode?

2.Spark–spark工作模式详解(local/standalone/yarn)

3.Spark 集群相关

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值