Spark对于RDD的相关操作（Scala）

最新推荐文章于 2024-08-07 20:31:19 发布

Cheengvho

最新推荐文章于 2024-08-07 20:31:19 发布

阅读量1.6k

点赞数

分类专栏： Spark 文章标签： Spark RDD Scala

本文链接：https://blog.csdn.net/m0_37890482/article/details/81136153

版权

本文介绍了在Scala中使用Spark处理RDD的基本操作，包括导入依赖、创建Scala-object，以及RDD的常用方法如map、reduceByKey、countByKey、groupByKey和sortByKey。通过实例展示了如何读取文件、转化key-value对、进行累加计算、计数和排序等操作。

摘要由CSDN通过智能技术生成

如果在IDEA中创建Maven项目，需要导入相关依赖，现在先不提供pom文件，后面再上传。

依赖导入完成之后，创建Scala-object，启用RDD需要固定的前面几行代码（里面的设置不一定固定）

val conf=new SparkConf()
      .setMaster("local")
      .setAppName("testRdd")
val sc=new SparkContext(conf)  //用于连接数据

获取文件

//Linux里面使用 spark-shell 命令启动可以直接从下面这步开始
var file = "/loudacre/spark/*" //设置获取文件的路径，可以是本地也可以是HDFS，和上面conf设置有关
var sparkinfo = sc.textFile(file)
或使用
var sparkinfo = sc.wholeTextFile(file,2) //只能读取HDFS数据（感觉是这样，不一定准确），后面的2是分区数，可以不写。

下面的例子都用这个文件内的方法进行说明

// Step 1 - Create an RDD based on a subset of weblogs (those ending in digit 6)
val logs=sc.textFile("/loudacre/weblogs/*6")

// map each request (line) to a pair (userid, 1) th