RDD学习

最新推荐文章于 2023-05-29 16:12:21 发布

蜡笔小新hyp

最新推荐文章于 2023-05-29 16:12:21 发布

阅读量421

点赞数

分类专栏：大数据 spark 文章标签： spark

本文链接：https://blog.csdn.net/hyp1006346386/article/details/69569658

版权

大数据同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

spark

15 篇文章 0 订阅

订阅专栏

基本概念：

RDD( Resilient Distributed Datasets )弹性分布式数据集
- 在Spark中，对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作求值
- RDD将操作分为两类：transformation与action。
- 无论执行了多少次transformation操作，RDD都不会真正执行运算，只有当action操作被执行时，运算才会触发。

创建RDD:

有三种方法：
- 从 Scala 集合中创建，通过调用 SparkContext#makeRDD 或 SparkContext#parallelize
- 加载外部数据来创建 RDD，例如从 HDFS 文件、mysql 数据库读取数据等
- 由其他 RDD 执行 transform 操作转换而来

Transformation操作:

从现有的数据集创建一个新的数据集。常用的操作：
- map(func)
- flatMap(func)
- mapPartitions(func)
- filter(func)
- union(otherDataset)
- distinct([numTasks])
- groupByKey(numTasks)
- reduceByKey(func,[numTasks]):对元素为KV对的RDD中Key相同的元素的Value进行reduce，因此，Key相同的多个元素的值被reduce为一个值，然后与原RDD中的Key组成一个新的KV对。
- sortByKay([ascending],[numTasks])
- sample(withReplacement,faction,seed)
- partitionBy(p:Partitioner[k]:RDD[K,V])

Action操作:

在数据集上运行计算后，返回一个值给驱动程序。常用的操作：
- reduce(func):
- collect():以数据的形式返回数据集中的所有元素给Driver程序，为防止Driver程序内存溢出，一般要控制返回的数据集大小
- count():
- first():
- take(n):
- takeSample(withReplacement,num,seed):
- saveAsTextFile(path):将最终的结果数据保存到指定的HDFS目录中
- saveAsSequenceFile(path):将最终的结果数据以sequence的格式保存到指定的HDFS目录中
- countByKey():作用于K-V类型的RDD上，统计每个key的个数，返回(K,K的个数)
- foreach(func):

五个特性:

参考资料：

RDD核心剖析http://mt.sohu.com/20160721/n460362468.shtml
spark编程指南 http://blog.javachen.com/2015/02/03/spark-programming-guide.html
spark手册http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD
hHadoop shell 命令http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html
RDD操作：http://blog.csdn.net/xiefu5hh/article/details/51781074

蜡笔小新hyp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD学习

基本概念：RDD( Resilient Distributed Datasets )弹性分布式数据集 - 在Spark中，对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作求值 - RDD将操作分为两类：transformation与action。 - 无论执行了多少次transformation操作，RDD都不会真正执行运算，只有当action操作被执行时，运算才会触发。创建RD
复制链接

扫一扫