Spark核心编程-RDD概述

最新推荐文章于 2023-11-06 16:31:41 发布

Anbang713

最新推荐文章于 2023-11-06 16:31:41 发布

阅读量459

点赞数

文章标签： Spark RDD Spark RDD概述 Spark核心编程 Spark RDD简介

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Anbang713/article/details/81584221

版权

大数据/Spark/Spark Core 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

说明：本文参考郭景瞻的《图解Spark：核心技术与案例实战》

一、背景

1、原因

计算机普遍应用和移动互联网的发展导致了数据量爆发式增长，单台机器处理能力和I/O性能远远满足不了这种增长，越来越多的企业不得不把计算和存储扩展到集群中去。但是在集群中又出现了以下的三个问题：

（1）并行化处理：以前的应用程序需要以并行化的方式重写，并且这种编程模型能够处理范围广泛的计算。

（2）集群的容错：大规模的情况下节点故障和慢节点将成为常态，这种情况可能及大地影响应用程序的性能。

（3）多用户共享：在集群运行中需要动态的扩展和缩减计算资源，如CPU、内存和磁盘等。

2、解决方案

针对上述问题，不同的企业和研究机构设计了不同的编程模型。如Google公司提出的MapReduce模型，这是一种简单通用而且能够自动处理故障的批处理计算模型。随着技术的发展，出现了Storm流处理系统，Impala交互式SQL查询系统等等。在这些模型中都需要高效的数据共享，如迭代算法都需要进行多次访问相同的数据集；交互数据挖掘需要对同一数据子集进行多个特定的查询；流式应用则需要随时间对状态进行维护和共享。但是不幸的是，尽管这些框架支持大量的计算操作运算，但是它们缺乏针对数据共享的高效元语。而在这些系统中，实现计算之间数据共享只有一个办法：把数据写到外部存储系统，如分布式文件系统HDFS。这势必引起数据备份、磁盘I/O以及序列化等开销，从而占据了大部分的执行时间。

3、Spark的弹性分布式数据集RDD

Spark设计了统一的编程抽象——弹性分布式数据集RDD（Resilient Distributed Dataset），这种模型可以令用户直接控制数据的共享，使得用户可以指定数据存储到硬盘还是内存，以及控制数据的分区方法和在数据集上进行操作。

Spark的优势在于：

（1）一站式解决方案：在相同的运行环境下，支持迭代、批处理、交互式和流处理。

（2）以很小的代价在该计算模型提供节点故障和慢节点容错处理能力。

（3）内存计算，比MapReduce的性能要高100倍。

（4）适合多用户管理，允许应用程序弹性地扩展和缩减计算资源。

二、RDD简介

RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。

（1）分布式数据集：RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。

（2）弹性：RDD的数据默认是存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘。

（3）容错性：可以自动从节点失败中恢复过来。即如果某个节点上的RDD分区因为节点故障，导致数据丢了，那么RDD会自动通过自己的数据来源重新计算该分区，这一切对于使用者来说是透明的。

三、RDD操作

1、创建操作

用于RDD的创建，RDD创建只有两种方法：一是来自于内存集合和外部存储系统；二是通过“转换操作”生成的RDD。

2、转换操作

将RDD通过一定的操作变换成新的RDD，RDD的转换操作时惰性操作，它只是定义了一个新的RDD，并没有立即执行。

3、控制操作

进行RDD持久化，可以让RDD按不同的存储策略保存在磁盘或者内存中。

4、行为操作

触发Spark运行的操作。其分为两类：一类的操作结果变成Scala集合或者变量；一类将RDD保存到外部文件系统或者数据库中。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark核心编程-RDD概述

说明：本文参考郭景瞻的《图解Spark：核心技术与案例实战》一、背景1、原因计算机普遍应用和移动互联网的发展导致了数据量爆发式增长，单台机器处理能力和I/O性能远远满足不了这种增长，越来越多的企业不得不把计算和存储扩展到集群中去。但是在集群中又出现了以下的三个问题：（1）并行化处理：以前的应用程序需要以并行化的方式重写，并且这种编程模型能够处理范围广泛的计算。（2）集群的容错：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。