如果在IDEA中创建Maven项目,需要导入相关依赖,现在先不提供pom文件,后面再上传。
依赖导入完成之后,创建Scala-object,启用RDD需要固定的前面几行代码(里面的设置不一定固定)
val conf=new SparkConf()
.setMaster("local")
.setAppName("testRdd")
val sc=new SparkContext(conf) //用于连接数据
获取文件
//Linux里面使用 spark-shell 命令启动可以直接从下面这步开始
var file = "/loudacre/spark/*" //设置获取文件的路径,可以是本地也可以是HDFS,和上面conf设置有关
var sparkinfo = sc.textFile(file)
或使用
var sparkinfo = sc.wholeTextFile(file,2) //只能读取HDFS数据(感觉是这样,不一定准确),后面的2是分区数,可以不写。
下面的例子都用这个文件内的方法进行说明
// Step 1 - Create an RDD based on a subset of weblogs (those ending in digit 6)
val logs=sc.textFile("/loudacre/weblogs/*6")
// map each request (line) to a pair (userid, 1) th