基于DataFrame的StopWordsRemover处理

stopwords简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方,我们对这些停止词做出一些特殊处理,以方便我们更关注在更重要的一些词上。

对于不同类型的需求而言,对停止词的处理是不同的。

1.    有监督的机器学习 – 将停止词从特征空间剔除

2.    聚类– 降低停止词的权重

3.    信息检索– 不对停止词做索引

4.    自动摘要- 计分时不处理停止词

对于不同语言,停止词的类型都可能有出入,但是一般而言有这简单的三类

1.    限定词

2.    并列连词

3.    介词

停止词的词表一般不需要自己制作,有很多可选项可以自己下载选用。

Spark中提供了StopWordsRemover类处理停止词,它可以用作Machine learning Pipeline的一部分。

StopWordsRemover的功能是直接移除所有停用词(stopword),所有从inputCol输入的量都会被它检查,然后再outputCol中,这些停止词都会去掉了。

默认的话会在构建StopWordsRemover对象的时候调用loadDefaultStopWords(language: String): Array[String]加载/org/apache/spark/ml/feature/stopwords/english.txt

这是一个简单的停止词表,包含181个词(spark2.2)。

默认还提供了其他几种语言(danish, dutch, english, finnish, french, german, hungarian,italian, norwegian, portuguese, russian, spanish, swedish, turkish)的停止词,遗憾的是没有中文默认停止词表,所以对于中文停止词需要自己提供。

假如我们有个dataframe,有两列:id和raw。

Id

Raw

0

[I, saw, the, red, baloon]

1

[Mary, had, a, little, lamb]


Raw列作为StopWordsRemover的输出,filtered作为输出列,会得到如下数据:

Id

Raw

Filtered

0

[I, saw, the, red, baloon]

[saw, red, baloon]

1

[Mary, had, a, little, lamb]

[Mary, little, lamb]

在这里filtered,“I”,“the”,“had”和“a”这些停用词语已被滤除。

import org.apache.spark.ml.feature.StopWordsRemover
// $example on$
val remover = new StopWordsRemover().setInputCol("raw").setOutputCol("filtered")

val dataSet = spark.createDataFrame(Seq(
 (0, Seq("I", "saw", "the", "red", "balloon")),
 (1, Seq("Mary", "had", "a", "little", "lamb"))
)).toDF("id", "raw")

remover.transform(dataSet).show(false)



StopWordsRemover的常用API介绍


推荐阅读:

1,Spark的Ml pipeline

2,论Spark Streaming的数据可靠性和一致性

3,kafka连接器两种部署模式详解

4,Kylin及数据仓库的技术概念详解




关于Spark高级玩法

kafkahbasespark,Flink等入门到深入源码,spark机器学习,大数据安全,大数据运维,请关注浪尖公众号,看高质量文章。

更多文章,敬请期待




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值