Spark数据介绍

静听山水

已于 2024-09-06 17:46:52 修改

阅读量959

点赞数 29

分类专栏： Spark 文章标签： spark 分布式

于 2024-09-06 17:10:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41081716/article/details/141964640

版权

Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

从趋势上看，DataFrame 和 Dataset 更加流行。

示例场景

数据仓库和 BI 工具集成：
- 如果你需要处理存储在数据仓库中的结构化数据，并且希望与 BI 工具集成，那么 DataFrame 和 Dataset 是首选。
机器学习流水线：
- 在构建机器学习流水线时，使用 DataFrame 和 Dataset 可以更好地管理数据流，并且可以方便地与 MLlib 集成。
实时数据处理：
- 尽管 Spark Structured Streaming 主要使用 DataFrame 和 Dataset，但在某些特定的实时数据处理场景中，仍然可能会用到 RDD。

在 Apache Spark 中，RDD (弹性分布式数据集)、DataFrame 和 Dataset 是三种不同的数据抽象，它们各有特点和适用场景。下面分别介绍这三种数据结构的区别：

1. RDD (Resilient Distributed Dataset)

特点：

不可变性：一旦创建后，RDD 是不可变的。这意味着你不能修改一个已存在的 RDD 的内容。
容错性：RDD 通过记录数据转换的历史（血缘关系 Lineage）来自动恢复丢失的数据分区。
懒加载：RDD 上的操作分为转换（Transformation）和动作（Action）。转换操作定义了如何处理数据，但并不会立即执行；动作操作则会触发整个计算过程。
弱类型：RDD 只提供有限的编译时类型检查，大部分类型检查是在运行时进行的。
API：RDD 提供了丰富的低级 API，适合复杂的自定义逻辑。

用途：

RDD 适用于需要复杂控制流或需要细粒度控制数据处理逻辑的场景。
RDD 也适用于需要容错性的批处理作业。

2. DataFrame

特点：

表格结构：DataFrame 是一个分布式的行集合，每一行都有固定的模式（Schema）。
强类型：DataFrame 提供了强类型的 API，支持 SQL 查询，并且具有编译时类型检查。
优化执行：DataFrame 操作可以被 Catalyst 优化器优化，以提高执行效率。
API：DataFrame 提供了类似于 SQL 的 API，易于使用，适合结构化数据处理。

用途：

DataFrame 适用于处理结构化数据，特别是那些可以通过 SQL 类似查询语言来表达的数据处理任务。
DataFrame 也适用于需要快速开发周期的应用，因为它提供了更多的内置功能和支持。

3. Dataset

特点：

结合了 RDD 和 DataFrame 的优点：Dataset 是一个强类型的分布式数据集，既有 DataFrame 的结构化特性，也有类似 RDD 的 API。
强类型：Dataset 支持编译时类型检查，提高了代码的安全性和可维护性。
优化执行：Dataset 操作也可以被 Catalyst 优化器优化。
API：Dataset 提供了既像 RDD 又像 DataFrame 的 API，可以使用 SQL 语法，也可以使用函数式编程风格。

用途：

Dataset 适用于需要结构化数据处理，同时也需要一定程度的自定义逻辑的情况。
Dataset 也适用于需要高性能和类型安全的应用。

总结

RDD：适合需要高度定制化的数据处理逻辑，对容错性要求高的批处理任务。
DataFrame：适合处理结构化数据，需要快速开发周期，易于使用 SQL 查询的场景。
Dataset：结合了 RDD 和 DataFrame 的优点，提供了类型安全和优化执行的能力，适合需要结构化数据处理同时需要一定程度自定义逻辑的情况。

关注

29
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。