如果在IDEA中创建Maven项目,需要导入相关依赖,现在先不提供pom文件,后面再上传。
依赖导入完成之后,创建Scala-object,启用RDD需要固定的前面几行代码(里面的设置不一定固定)
val conf=new SparkConf()
.setMaster("local")
.setAppName("testRdd")
val sc=new SparkContext(conf) //用于连接数据
获取文件
//Linux里面使用 spark-shell 命令启动可以直接从下面这步开始
var file = "/loudacre/spark/*" //设置获取文件的路径,可以是本地也可以是HDFS,和上面conf设置有关
var sparkinfo = sc.textFile(file)
或使用
var sparkinfo = sc.wholeTextFile(file,2) //只能读取HDFS数据(感觉是这样,不一定准确),后面的2是分区数,可以不写。
下面的例子都用这个文件内的方法进行说明
// Step 1 - Create an RDD based on a subset of weblogs (those ending in digit 6)
val logs=sc.textFile("/loudacre/weblogs/*6")
// map each request (line) to a pair (userid, 1) then sum the hits
val userreqs = logs.
map(line => line.split(' ')).
map(words => (words(2),1)).
reduceByKey((v1,v2) => v1 + v2)
//

本文介绍了在Scala中使用Spark处理RDD的基本操作,包括导入依赖、创建Scala-object,以及RDD的常用方法如map、reduceByKey、countByKey、groupByKey和sortByKey。通过实例展示了如何读取文件、转化key-value对、进行累加计算、计数和排序等操作。
最低0.47元/天 解锁文章
611

被折叠的 条评论
为什么被折叠?



