大数据-Spark基础-Wordount

需求

1.将PDF文件放入txt文件中,并上传到HDFS上
2.进入spark-shell 统计行数
3.统计单词出现的次数 并输出到HDFS的a.txt中
使用filter函数去除常见的标记符号及数字

1.开启hadoop,并把文件上传到HDFS

hadoop fs -put a.txt /

1.进入spark-shell中
(1)读取上传到hdfs文件,返回所有的行数

val distFile = sc.textFile("hdfs//ove:9000/a.txt")

在这里插入图片描述
(2)把行数扁平化,并以" "空格分隔,得到所有的单词

val words = distFile.flatMap(line=>line.split(" "))

在这里插入图片描述
(3)遍历所有单词,变为一个元组(word,1)的形式,以方便后面统计

val wordToOne = words.map(word=>(word,1))

在这里插入图片描述
(4)使用函数reduceByKey()分组并统计各组单词个数

val wordToCount = wordToOne.reduceByKey((x,y)=>x+y)

在这里插入图片描述
(6)倒序排序

val res = wordsCount.sortBy(t=>t._2,false)

在这里插入图片描述
(7)文件输出到hdfs中

res.repatition(1).saveAsTextFile("hdfs://host:9000/asdasda")

番外
清洗数据需要去掉字符以及数字,可以在执行textFile()后返回所有的行数的时候进行 这儿我自己写了一个方法

def removeAllGC(lines:RDD[String],sc:SparkContext):RDD[String]={
    val string_lines: Array[String] = lines.collect()
    val res_lines: Array[String] = string_lines.map({
      line =>
        line.replaceAll(",", "")
          .replaceAll("\\.", "")
          .replace(";", "")
          .replaceAll("\\[.*?\\]", " ")
          .replaceAll("\\(.*?\\)", " ")
          .replaceAll("[(0-9)]", "")
    })
    val res: RDD[String] = sc.parallelize(res_lines)
    res
  }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值