Spark基础：创建RDD

最新推荐文章于 2024-04-21 14:28:25 发布

兮若耶

最新推荐文章于 2024-04-21 14:28:25 发布

阅读量980

点赞数

文章标签： spark big data hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63797754/article/details/125360784

版权

文章目录

一、RDD讲述
- （一）RDD概念
二、RDD例题
三、创建RDD

一、RDD讲述

（一）RDD概念

Spark提供了一种对数据的核心抽象，称为弹性分布式数据集（Resilient Distributed
Dataset，RDD）。这个数据集的全部或部分可以缓存在内存中，并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。
RDD的弹性主要是指当内存不够时，数据可以持久化到磁盘，并且RDD具有高效的容错能力。
分布式数据集是指一个数据集存储在不同的节点上，每个节点存储数据集的一部分。

（二）RDD主要特征

RDD是不可变的，但可以将RDD转换成新的RDD进行操作。
RDD是可分区的。RDD由很多分区组成，每个分区对应一个Task任务来执行。
对RDD进行操作，相当于对RDD的每个分区进行操作
RDD拥有一系列对分区进行计算的函数，称为算子。
RDD之间存在依赖关系，可以实现管道化，避免了中间数据的存储。

二、RDD例题

（一）创建文件

1、准备本地系统文件

在home目录里创建hh.txt

请添加图片描述

写入内容，单词用空格隔开

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark基础：创建RDD

Spark基础：创建RDD
复制链接

扫一扫

兮若耶 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

26万+: 周排名

179万+: 总排名

1万+: 访问

: 等级

201: 积分

10: 粉丝

8: 获赞

3: 评论

48: 收藏

私信

关注

热门文章

最新评论

音乐小程序编写
老默我想吃鱼啦: 有代码吗
半学期总结
潘潘.tel: 哇哦

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。