大数据学习之路 --- Spark（内存计算框架）

最新推荐文章于 2024-10-06 19:51:33 发布

Mai_Noe

最新推荐文章于 2024-10-06 19:51:33 发布

阅读量5.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mai_NO/article/details/87184740

版权

Spark是基于内存计算的大数据并行计算框架。spark基于内存计算，提高了在大数据环境下数据处理的的实时性，同时保证了高容错性和高可伸缩性。

---<<Spark大数据处理技术，应用与性能优化>>

Spark中有很多内容，本篇文章只讲其中的Spark core ，Spark sql ，Spark stream。

Spark core：

RDD：

RDD 是Resilient Distributed Dataset的简称。它是Apache Spark的基本数据结构。它是一个不可变的对象集合，在集群的不同节点上进行计算，可以理解为是一个数据分布在各个不同节点上的数据集合，当对它进行操作计算时，实际上是对各个节点上的数据进行计算。

Resilient：即在RDD lineage(DAG)的帮助下具有容错能力，能够重新计算由于节点故障而丢失或损坏的数据分区。

Distributed：数据分布在多个节点上。

Dataset：表示所操作的数据集。用户可以通过JDBC从外部加载数据集，数据集可以是JSON文件、CSV文件、文本文件或数据库

RDD的特点：

1、内存计算：它将中间计算结果存储在分布式内存(RAM)中，而不是磁盘中。

2、延迟计算：Apache Spark中的所有transformation都是惰性的，因为它们不会立即计算结果，它们会记住应用于数据集的那些transformation。直到action出现时，才会真正开始计算。

3、容错性：Spark RDDs能够容错，因为它们跟踪数据沿袭信息，以便在故障时自动重建丢失的数据。

4、不可变性：你可以通过对RDD计算得到新的RDD，但是无法改变现有RDD内的数据。跨进程共享数据是安全的。它也可以在任何时候创建或检索，这使得缓存、共享和复制变得容易。因此，它是一种在计算中达到一致性的方法。

5、分区性：partition是Spark RDD中并行性的基本单元，每个分区都是数据的逻辑分区。Partition—task一一对应

6、持久化：用户可以声明他们将重用哪些RDDs，并为它们选择存储策略。

7、数据本地性：RDDs能够定义计算分区的位置首选项。位置首选项是关于RDD位置的信息。

RDD的操作：

RDD的操作分为两种，一种是transformation操作，一种是action操作。

transformation：

得到的结果还是一个RDD，都是延迟操作的函数，如：map(), filter(), reduceByKey()。

transformation有两种类型:窄变换、宽变换(窄依赖、宽依赖)。

窄变换：它是map、filter这样数据来自一个单独的分区的操作。即输出RDD分区中的数据，来自父RDD中的单个分区。

宽变换：在子RDD单个分区中计算结果

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。