需求
1.将PDF文件放入txt文件中,并上传到HDFS上
2.进入spark-shell 统计行数
3.统计单词出现的次数 并输出到HDFS的a.txt中
使用filter函数去除常见的标记符号及数字
1.开启hadoop,并把文件上传到HDFS
hadoop fs -put a.txt /
1.进入spark-shell中
(1)读取上传到hdfs文件,返回所有的行数
val distFile = sc.textFile("hdfs//ove:9000/a.txt")
(2)把行数扁平化,并以" "空格分隔,得到所有的单词
val words = distFile.flatMap(line=>line.split(" "))
(3)遍历所有单词,变为一个元组(word,1)的形式,以方便后面统计
val wordToOne = words.map(word=>(word,1))
(4)使用函数reduceByKey()分组并统计各组单词个数
val wordToCount = wordToOne.reduceByKey((x,y)=>x+y)
(6)倒序排序
val res = wordsCount.sortBy(t=>t._2,false)
(7)文件输出到hdfs中
res.repatition(1).saveAsTextFile("hdfs://host:9000/asdasda")
番外
清洗数据需要去掉字符以及数字,可以在执行textFile()后返回所有的行数的时候进行 这儿我自己写了一个方法
def removeAllGC(lines:RDD[String],sc:SparkContext):RDD[String]={
val string_lines: Array[String] = lines.collect()
val res_lines: Array[String] = string_lines.map({
line =>
line.replaceAll(",", "")
.replaceAll("\\.", "")
.replace(";", "")
.replaceAll("\\[.*?\\]", " ")
.replaceAll("\\(.*?\\)", " ")
.replaceAll("[(0-9)]", "")
})
val res: RDD[String] = sc.parallelize(res_lines)
res
}