Spark ml之StopWordsRemover

  • 停用词stop words是在文档中频繁出现的词,但未携带太多意义的词,他们不应该参与到算法的运算中
  • StopWordsRemover是将输入的字符串(一般是分词器的Tokenizer的输出)中的停用词删除
  • 停用词表由stopWords参数指定,对于某些语言的默认停用词表是通过调用StopWordsRemover.loadDefaultStopWords(language),可用的选项为"丹麦" ,“荷兰诧”、“英诧”、“芬兰诧”,“法国”,“德国”、“匈牙利”、“意大利”、“挪威”、“葡萄牙” 、“俄罗斯”、“西班牙”、“瑞典"和"土耳其”
  • 布尔型参数caseSensitive指示是否区分大小写,默认为否

示例:

import org.apache.spark.ml.feature.StopWordsRemover
import org.apache.spark.sql.SparkSession

/**
  *
  * @author wangjuncheng
  *   StopWordsRemover  去停用词器
  **/
object StopWordsRemover extends App {

  val spark = SparkSession
    .builder()
    .master("local[*]")
    .appName("ml_learn")
//  .enableHiveSupport()
    .config("", "")
    .getOrCreate()
  val dataSet = spark.createDataFrame(Seq(
      (0, Seq("I", "saw", "the", "red", "baloon")),
      (1, Seq("Mary", "had", "a", "little", "lamb"))
    )).toDF("id","row")

     //stopwordsRemover
  val remover = new StopWordsRemover()
      .setInputCol("row")
      .setOutputCol("filtered")

  remover.transform(dataSet).show(false)
  spark.stop()
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值