Spark ml中的Tokenizer(分词器)
- Tokenizer是将文本如一个句子拆分城单词的过程,在spark ml中提供Tokenizer实现此功能RegexTokenizer提供了跟高级的基于正则表达式匹配的单词拆分。默认情况下,参数pattern(默认的正则表达式:"\s+") 作为分隔符用于拆分输入的文本,或者,用户将参数 gaps设置为false,指定正则表达式pattern表示为tokens,而不是分隔符,这样作为划分结果找到的所有匹配项,很简单,主要是看自己业务数据切分的逻辑。
示例代码,也是官网给出的示例:
import org.apache.spark.ml.feature.{
RegexTokenizer, Tokenizer}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._
/**
*
* @author wjc
*
* Tokenizer
**/
object Tokenizer extends App {
val spark = SparkSession
.builder()
.master("local[*]")