0、分词器
分词是将文本(例如句子)分解为单个术语(通常是单词)的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式(正则表达式)匹配的更高级标记化。默认情况下,参数“pattern”(正则表达式,默认值:) "\\s+"用作分隔符以分割输入文本。或者,用户可以将参数“gap”设置为 false,指示正则表达式“pattern”表示“令牌”而不是分割间隙,并找到所有匹配的出现作为标记化结果。
1、代码实现
def main(args: Array[String]): Unit = {
val spark: SparkSession = SparkSession.builder()
.appName("test")
.master("local[2]")
.getOrCreate()
spark.sparkContext.setLogLevel("WARN")
val sentenceDataFrame = spark.createDataFrame(Seq(
(0, "Hi I heard about Spark"),
(1, "I wish Java could use case classes"),
(2, "Logistic,regression,models,are,neat")
)).toDF("label", "sentence")
val tokenizer = new Tokenizer().set