如何入门spark

入门 Spark 需要“三步走”。

第一步,我们需要掌握 Spark 常用的开发 API 与开发算子。毕竟,通过这些 API 与开发算子,我们才能启动并驱使 Spark 的分布式计算引擎。接着,我们必须要深入理解它的工作原理。第三步,我们需要了解并熟悉 Spark 不同的计算子框架(Spark SQL、Spark MLlib 和 Structured Streaming),来应对不同的数据应用场景,比如数据分析、机器学习和流计算。
在这里插入图片描述

四个模块

4 个模块与三步走相对应,其中第一个模块是基础知识模块,专注于三步走的前两步,即熟悉开发 API 和吃透核心原理。后面的三个模块应对不同数据场景的计算子框架,分别是 Spark SQL、Spark MLlib 和 Structured Streaming。这四个模块和“三步走”的关系如下图所示:
在这里插入图片描述
第一个模块是基础知识。包括 RDD 编程模型、Spark 进程模型、调度系统、存储系统、Shuffle 管理、内存管理等等,。
第二个模块Spark SQL ,包括数据的转换、清洗、关联、分组、聚合、排序,等等。
第三个模块Spark MLlib,包括Spark MLlib 丰富的特征处理函数,细数 Spark MLlib 都支持哪些模型与算法,并学习构建端到端的机器学习流水线。
最后一部分, Spark 的流处理框架 Structured Streaming。包括Structured Streaming 如何同时保证语义一致性与数据一致性,以及如何应对流处理中的数据关联等。在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值