Spark对于RDD的相关操作(Scala)

本文介绍了在Scala中使用Spark处理RDD的基本操作,包括导入依赖、创建Scala-object,以及RDD的常用方法如map、reduceByKey、countByKey、groupByKey和sortByKey。通过实例展示了如何读取文件、转化key-value对、进行累加计算、计数和排序等操作。
摘要由CSDN通过智能技术生成

如果在IDEA中创建Maven项目,需要导入相关依赖,现在先不提供pom文件,后面再上传。

依赖导入完成之后,创建Scala-object,启用RDD需要固定的前面几行代码(里面的设置不一定固定)

val conf=new SparkConf()
      .setMaster("local")
      .setAppName("testRdd")
val sc=new SparkContext(conf)  //用于连接数据

获取文件

//Linux里面使用 spark-shell 命令启动可以直接从下面这步开始
var file = "/loudacre/spark/*" //设置获取文件的路径,可以是本地也可以是HDFS,和上面conf设置有关
var sparkinfo = sc.textFile(file)
或使用
var sparkinfo = sc.wholeTextFile(file,2) //只能读取HDFS数据(感觉是这样,不一定准确),后面的2是分区数,可以不写。

下面的例子都用这个文件内的方法进行说明

// Step 1 - Create an RDD based on a subset of weblogs (those ending in digit 6)
val logs=sc.textFile("/loudacre/weblogs/*6")

// map each request (line) to a pair (userid, 1) th
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值