Spark系列--SparkCore(一)RDD简介

最新推荐文章于 2024-06-05 20:45:18 发布

淡淡的倔强

最新推荐文章于 2024-06-05 20:45:18 发布

阅读量1.9k

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012834750/article/details/81018922

版权

Spark 专栏收录该内容

30 篇文章 2 订阅

订阅专栏

前言

RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢？

Hadoop的MapReduce是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备。数据更多面临的是一次性处理。

MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR这种模式不太合适，即使多MR串行处理，性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘，MR显然不擅长。

MR中的迭代：

这里写图片描述

Spark中的迭代：

这里写图片描述

一、RDD简介

RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区，这些分区运行在集群中的不同节点上。

RDD 其实是spark为了减少用户对于不同数据结构之间的差异而提供的数据封装，为用户提供了很多数据处理的操作。

RDD三个特点：

1、不可变，在RDD上调用转换算子，会生成一个新的RDD，不会更改原RDD的数据结构。

2、可分区，RDD的数据可以根据配置分成多个分区，每个分区都被一个Task任务去处理，你可以认为分区数就是并行度

3、弹性：

存储的弹性，RDD的数据可以在内存和磁盘进行自动切换，对用户透明。

Spark优先把数据放到内存中，如果内存放不下，就会放到磁盘里面，程序进行自动的存储切换

计算的弹性，RDD的计算之间会有重试机制，避免由于网络等原因导致的任务失败。
容错的弹性，RDD可以通过血统机制来进行RDD的恢复。

在RDD进行转换和动作的时候，会形成RDD的Lineage依赖链，当某一个RDD失效的时候，可以通过重新计算上游的RDD来重新生成丢失的RDD数据。

分区的弹性，你可以根据需求来动态改变RDD分区的分区数，也就是动态改变了并行度。

二、Spark到底做了什么？

从外部空间将数据加载到Spark，对数据进行转换、缓存最后将数据通过行动操作保存到外部空间。

这里写图片描述

RDD来说有两种处理数据的方式，一种叫转换操作【一个RDD调用该方法后返回一个RDD】，另外一种叫行动操作【一个RDD调用该方法后返回一个标量或者直接将数据保存到外部空间】

RDD是懒执行的，如果没有行动操作出现，所有的转换操作都不会执行。

淡淡的倔强

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark系列--SparkCore(一)RDD简介

前言RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为什么会产生呢？Hadoop的MapReduce是一种基于数据集的工作模式，面向数据，这种工作模式一般是从存储上加载数据集，然后操作数据集，最后写入物理存储设备。数据更多面临的是一次性处理。MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要...
复制链接

扫一扫

专栏目录

淡淡的倔强 CSDN认证博客专家 CSDN认证企业博客

码龄11年

115: 原创

3万+: 周排名

218万+: 总排名

104万+: 访问

: 等级

9375: 积分

272: 粉丝

317: 获赞

88: 评论

1163: 收藏

私信

关注

热门文章

分类专栏

最新评论

Hadoop系列(一)Docker部署Hadoop集群
whatchinaname: Step 8/12 : RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key ---> Running in daf361ee5feb Generating public/private dsa key pair. Enter passphrase (empty for no passphrase): 我再这里卡住了，回车不行，输入密码也不行
JVM命令-jstat
弹性思索: 单位应该是kb 不是字节吧
hadoop关不掉namenode的解决办法
modaciv: 可以的，有用！
Spring方法拦截器MethodInterceptor
努力搬砖的小贠: 不加配置的代码就是i耍流氓
java.lang包介绍
weixin_38730047: 谢谢了，省了我很多力

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。