spark任务shell运行_《Spark快速大数据分析》- 根据简单例子理解RDD

最新推荐文章于 2024-05-29 09:40:17 发布

weixin_39763640

最新推荐文章于 2024-05-29 09:40:17 发布

阅读量227

点赞数

文章标签： spark任务shell运行

本文链接：https://blog.csdn.net/weixin_39763640/article/details/111577201

版权

1. RDD简介

RDD，弹性分布式数据集（Resiliennt Distributed Datasets），是Spark中最重要的核心概念，是Spark应用中存储数据的数据结构。

RDD 其实就是分布式的只读元素集合。一个Spark应用，本质上就是对RDD进行转化（Transformation）和行动（Action）操作，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行，计算得到最终的结果。

我对RDD理解的知识点框架如图所示，网上有很多资料都有很详细的解释，Spark RDD是什么？中就对下面的知识点有比较详细的解释，可以参考一下，本文不再赘述。

下一部分通过一个简单的实际例子，可以对上图中提到的很多知识点以及Spark的运行原理有更直观的理解。

2. RDD使用例子

本节介绍一个RDD使用例子，将数据文件读入为RDD，并作相应的转化、行动操作，在过程中展示RDD的知识点，例子来自于《Spark快速大数据分析》第八章。

创建数据文件，如下：

## input.txt ##
INFO This is a message with content
INFO This is some other content
(空行)
INFO Here are more messages
WARN This is a warning
(空行)
ERROR Something bad happened
WARN More details on the bad thing
INFO back to normal messages

2. 在spark-shell中编写代码如下，得到counts，表示每种提示类型的出现次数

// 读取输入文件
scala> val input = sc.textFile("input.txt") // 切分为单词并且删掉空行
scala> val tokenized = input.map(line => line.split(" ")).filter(words => words.size > 0)
// 提取出每行的第一个单词(日志等级)并进行计数 
scala> val counts = tokenized.map(words => (words(0), 1)).reduceByKey{ (a,b) => a + b }

3. 使用toDebugString获取RDD的血缘关系，如查看input的血缘关系，可以看到创建出了一个HadoopRDD 对象，然后对该RDD执行映射操作，最终得到了返回的RDD

4. 同样的，我们可以查看counts的血缘关系如下，可以看到血缘关系中记录了从input经过若干转化操作得到counts，其中reduceByKey需要进行数据混洗

5. 在上图中我们还可以看到，血缘关系中具有不同的缩进等级，这里同一缩进等级的操作为一个Stage，同一个Stage里的操作可以流水线并行——

前面的操作map、filter等不需要数据混洗，为窄依赖，划分为一个Stage
reduceByKey需要数据混洗，为宽依赖，划分为一个Stage

6. 在监控界面上查看任务的划分与执行情况，默认地址为http://localhost:4040，打开如下，可以看到尽管我们做了数据的读入、转化操作，但由于惰性求值的特性，还没有任务执行

7. 使用collect操作，获取counts的内容，由于该操作是行动操作，Spark会开始运行任务，在监控界面查看如下，一个Job，两个Stage，与上面的血缘关系一致

8. 点击该任务可以查看任务详情如下，可以看到具体的Stage划分可视化

9. 使用cache将counts缓存，重新调用collect函数，Spark会根据缓存自动截断血缘，加快计算，此时在监控界面再次查看任务如下，可以看到只剩下一个Stage，前面的Stage由于缓存跳过计算

// 缓存RDD
scala> counts.cache()
// 求值
scala> counts.collect()

以上就是这个例子的全部内容，通过这个例子来直观理解RDD的各个特性。如有错漏，请指正。

Reference

Spark RDD是什么？
Spark之RDD基础学习
《Spark快速大数据分析》

weixin_39763640

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark任务shell运行_《Spark快速大数据分析》- 根据简单例子理解RDD

1. RDD简介RDD，弹性分布式数据集（Resiliennt Distributed Datasets），是Spark中最重要的核心概念，是Spark应用中存储数据的数据结构。RDD 其实就是分布式的只读元素集合。一个Spark应用，本质上就是对RDD进行转化（Transformation）和行动（Action）操作，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行，计算得到最终...
复制链接

扫一扫