【spark知识大纲梳理】

阿十~

已于 2023-06-07 09:54:36 修改

阅读量120

点赞数

分类专栏：大数据 spark 文章标签： spark 大数据分布式

于 2023-05-25 09:32:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liweiweii/article/details/130860246

版权

大数据同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

基本概念

分布式计算与大数据处理概念
Spark 与 Hadoop 的比较
Spark 架构与核心组件（Driver、Executor、Cluster Manager）

Spark数据结构

RDD（弹性分布式数据集）的概念、操作和使用场景
DataFrame 和 DataSet 的概念、操作和使用场景
与 RDD、DataFrame、DataSet 相关的转换（Transformation）和行动（Action）操作
数据分区（Partitioning）与分片（Shuffling）

Spark SQL

Spark SQL 的概念、特性和优势
使用 SQL 查询和 DataFrame API 进行数据处理
用户自定义函数（UDF）和用户自定义聚合函数（UDAF）
数据源读取与写入：JSON、Parquet、Avro、CSV 等
数据库连接与集成：JDBC、Hive 等

Spark Streaming

实时处理概念与应用场景
DStream（离散化流）的概念、操作和使用场景
结构化流（Structured Streaming）的概念、操作和使用场景
窗口操作、滑动窗口、水印（Watermark）等
数据源接入：Kafka、Flume、Socket 等

Spark MLlib

机器学习库的概念、特性和使用场景
常见算法与模型：回归、分类、聚类、协同过滤等
特征工程：特征提取、特征转换、特征选择等
模型评估与调优

Spark GraphX

图计算库的概念、特性和使用场景
图的表示和操作：顶点（Vertex）、边（Edge）、属性图（Property Graph）等
常见的图算法：PageRank、连通分量、三角计数等

集群管理与调优

集群管理器：Standalone、YARN、Mesos 的比较与选择
Spark 应用的部署与提交
配置调优：内存管理、序列化、数据本地性等
监控与诊断：日志分析、Spark UI、性能指标等

生态系统与未来发展

与 Spark 相关的项目与工具：Hadoop、Hive、HBase、Kafka 等
Spark 的发展趋势与挑战
与 Spark 相关的开源社区和产业应用

spark实操

spark集群部署
spark交互式编程，例如：在交互界面中进行scala编程，熟悉常见的算子操作。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【spark知识大纲梳理】

除了理论知识,掌握一定的实践项目经验也是很有帮助的。总的来说,要熟练掌握RDD,DataFrame,SQL,Streaming以及主要机器学习算法的概念和用法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。