Spark----RDD介绍

最新推荐文章于 2024-07-17 11:13:52 发布

墨菲特与牛战士

最新推荐文章于 2024-07-17 11:13:52 发布

阅读量143

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/qq_36620412/article/details/104411592

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、概念

RDD（Resilient Distributed Datasets），弹性分布式数据集。特点是可以并行操作，并且是容错的。有两种方法可以创建RDD：
1.执行Transform操作（变换操作）；
2.读取外部存储系统的数据集，如：HDFS、HBase，或者任何与Hadoop相关的数据源。

二、入门实例

案例一：

//scala 语言
val data = Array（1，2，3，4，5）
val r1 = data.parallelize(data)
val r2 = data.parallelize(data,2)

你可以把RDD想象为一个特殊的集合类，上面的data是一个普通的集合类型，然后通过parallelize函数的转换成为一个RDD；r1是一个普通的RDD，r2多带了一个参数，这代表的是分区操作。表示r2是一个分区的RDD，这么做的目的是：分布式处理。这对于大规模数据是很有意义的。r2在底层可能这样表示：RDD（1，2）（3，4，5）。
案例二：

val data = SparkContext.textFile("data.txt")

这个data就是一个从外部存储系统中导入生成的一个RDD。
SparkContext是spark实例对象。
然后就可以在生成好的RDD上做操作，得到想要的数据。
下一节：RDD操作
如果有错误或者模糊，请多见谅！

墨菲特与牛战士

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark----RDD介绍

一、概念RDD（Resilient Distributed Datasets），弹性分布式数据集。特点是可以并行操作，并且是容错的。有两种方法可以创建RDD：1.执行Transform操作（变换操作）；2.读取外部存储系统的数据集，如：HDFS、HBase，或者任何与Hadoop相关的数据源。二、入门实例案例一：//scala 语言val data = Array（1，2，3，4，5...
复制链接

扫一扫