文本预处理,去除词频数为1的文档

package clustering.garbage

import java.io.PrintWriter

import org.apache.spark.SparkContext

/**
  * Created by fhqplzj on 17-1-12 at 下午8:40.
  */
object Lines {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext("local[*]", s"${getClass.getSimpleName.stripSuffix("$")}")
    val path = "/tmp/fuck"
    removeRareWords(sc, path)
  }

  /**
    * 去除词频数为1的单词,单词之间以空格分割,行之间以换行符分割
    *
    * @param sc
    * @param path
    */
  def removeRareWords(sc: SparkContext, path: String): Unit = {
    val docs = sc.wholeTextFiles(path)
    /*词频数为1的单词组成的集合*/
    val rareWords = docs.
      values.
      flatMap(_.split("\\s+")).
      map((_, 1)).
      reduceByKey(_ + _).
      filter(_._2 == 1).
      keys.
      collect().
      toSet
    docs.foreach {
      case (name, doc) =>
        val printer = new PrintWriter(name.substring(name.indexOf("/")))
        val content = doc.split("\n").map(_.split(" ").filterNot(rareWords.contains).mkString(" ")).mkString("\n")
        printer.print(content)
        printer.close()
    }
  }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值