spark之RDD的理解

最新推荐文章于 2022-03-18 09:07:54 发布

乌镇风云

最新推荐文章于 2022-03-18 09:07:54 发布

阅读量267

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43087634/article/details/84347825

版权

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它存储的元数据信息，真正的数据在partition分区中，一个RDD中有多个分区，一个分区在executor节点上执行，他就是一个迭代器，一个分区在一台机器上，一台机器可以有多个分区，我们操作的是分布在多台机器上的数据，而RDD是一个代理，对RDD进行操作其实就是对分区进行操作，就是对每一台机器上的迭代器进行操作，因为迭代器保存着我们要操作的数据！

五大特性：

A list of partitions

一系列分区，是数据集的基本组成单位

A function for computing each split

一个函数作用于每个分区.map（t=>(t,1)）

A list of dependencies on other RDDs

每个RDD是有依赖关系的(下一个算子的计算依赖于上一个算子的结果)

Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

如果RDD里面的数据是Key,value类型的，会有hashpartitioner(分区器)

作用于该RDD（可能导致分区数据不平衡）

分区原理：根据key，求出其的hashcode值，除于分区数，如果余数为负数，则余数加分区数就是其对应的分区ID

Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

存储每个分区的数据的时候，会有一个最优位置，如果是读取HDFS的文件，按照移动数据不如移动计算的概念

就是说Spark进行任务调度的时候，会尽可能将计算任务分配到其所要的数据存储单位，（优先处理本节点的数据，跨节点读取数据会产生磁盘IO消耗，）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark之RDD的理解

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它存储的元数据信息，真正的数据在partition分区中，一个RDD中有多个分区，一个分区在executor节点上执行，他就是一个迭代器，一个分区在一台机器上，一台机器可以有多个分区，我们操作的是分布在多台机器上的数据，而RDD是一个代理，对RDD进行操作其实就是对分区进行操作...
复制链接

扫一扫

博客等级

码龄6年

27
原创

57
点赞

324
收藏

36
粉丝

关注

私信

热门文章

最新评论

HDFS和MapReduce工作原理
树友: 图不够清晰啊
RDD和DataFrame和DataSet三者间的区别
weixin_53451551: 头一次听说 rdd是和ml 一起使用的，DataFrame与Dataset一般不与spark ml同时使用。大哥劝你不懂就别写，丢人呢，spark-ml从feature部分就和dataframe息息相关全部都是操作df的，到了model部分更是依赖于df的的fit和transform算子的。
RDD和DataFrame和DataSet三者间的区别
tigerricky2010: 我觉得df是知道字段名称和属性的，但由于类型是row,所以你不能直接访问属性，要经过转换才行，转换不安全。而ds是强类型，所以可以直接使用属性名称，操作起来更方便，而且安全。
RDD和DataFrame和DataSet三者间的区别
weixin_41836935: 大佬 df进行select可以用udf将某个字段的类型转Int类型吗还是不体现 ds呢比如表结构 id name id中就直接是1 但默认是String 要存入表里的时候要怎么将1变成整型
RDD和DataFrame和DataSet三者间的区别
SourceCoder__: 我现在的理解是DS每行是类在java和Scala里面可以方便取各个filed的属性受语言限制而DF则不方便取和python不一样

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。