Scala练习集---RDD编程

最新推荐文章于 2024-07-16 22:38:10 发布

宁缺100

最新推荐文章于 2024-07-16 22:38:10 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/qq_24434491/article/details/89508056

版权

本文主要介绍了使用Scala在Spark上进行RDD编程，包括如何创建RDD、读取外部数据集、运用SparkContext.parallelize()方法、执行RDD的各种操作如map、flatMap、filter、reduce和fold，以及如何计算文本文件中单行文本的单词最大数量。此外，还涉及了RDD的持久化和键值对RDD的操作。

摘要由CSDN通过智能技术生成

 RDD：是弹性分布式数据集（Resilient Distributed Dataset）
 DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系；
 Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行任务，并为应用程序存储数据；
应用：用户编写的Spark应用程序；
任务：运行在Executor上的工作单元；
作业：一个作业包含多个RDD及作用于相应RDD上的各种操作；
阶段：是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”，或者也被称为“任务集”。

分布式文件系统创建文件夹

hadoop@dhjvirtualmachine:/usr/local/hadoop$ ./bin/hdfs dfs -mkdir -p input

查看分布式文件系统

hadoop@dhjvirtualmachine:/usr/local/hadoop$ ./bin/hdfs dfs -ls input

创建RDD

读取外部数据集
SparkContext.parallelize()方法在集合上创建

本地文件
scala> val lines = sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt")
lines: org.apache.spark.rdd.RDD[String] = file:///usr/local/spark/mycode/rdd/w