Spark-MLlib 学习入门到掌握-n-gram提取特征向量[10]

最新推荐文章于 2022-11-29 22:23:25 发布

华阙之梦

最新推荐文章于 2022-11-29 22:23:25 发布

阅读量244

点赞数

文章标签： spark 字符串正则表达式大数据

本文链接：https://blog.csdn.net/qq_41610493/article/details/106907527

版权

输出将包含一系列ñ-克每个 ñ-gram由空格分隔的字符串表示 ñ连续的单词

  def ngramTest(){
    import org.apache.spark.ml.feature.NGram
    val spark: SparkSession = SparkSession.builder().appName("implicits").master("local[2]").getOrCreate()

    val wordDataFrame = spark.createDataFrame(Seq(
      (0, Array("Hi", "I", "heard", "about", "Spark")),
      (1, Array("I", "wish", "Java", "could", "use", "case", "classes")),
      (2, Array("Logistic", "regression", "models", "are", "neat"))
    )).toDF("id", "words")

    val ngram = new NGram().setN(2).setInputCol("words").setOutputCol("ngrams")

    val ngramDataFrame = ngram.transform(wordDataFrame)
    ngramDataFrame.select("ngrams").show(false)
  }

运行结果
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

华阙之梦

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark-MLlib 学习入门到掌握-n-gram提取特征向量[10]

输出将包含一系列ñ-克每个 ñ-gram由空格分隔的字符串表示 ñ连续的单词 def ngramTest(){ import org.apache.spark.ml.feature.NGram val spark: SparkSession = SparkSession.builder().appName("implicits").master("local[2]").getOrCreate() val wordDataFrame = spark.createDataFra.
复制链接

扫一扫