Spark NLP实现本文挖掘

最新推荐文章于 2024-07-04 10:13:53 发布

bigdataCoding

最新推荐文章于 2024-07-04 10:13:53 发布

阅读量1.9k

点赞数

分类专栏： Spark 大数据

本文链接：https://blog.csdn.net/UnionIBM/article/details/80597848

版权

该博客介绍了如何利用Spark的NLP库结合Word2Vec技术进行文本挖掘。首先，文章强调了理解NLP相关理论的重要性，然后讲解了Spark中的MLib、RDD、DataFrame和Graph的基本概念。在技术配置上，博客指出需要Spark 2.2.0、JDK 1.8.0和Scala 2.1.x。最后，博主分享了创建DataFrame并计算文本相似度的步骤，当相似度超过0.85时，认为文本之间存在紧密关系。

摘要由CSDN通过智能技术生成

本机运用的技术栈为NLP（Word2Vec）关于NLP的相关理论请提前梳理清楚
Spark mlib，rdd,dataframe,graph（顶点，边，连通图等基本概念）
Spark 2.2.0,JDK 1.8.0 ,Scala 2.1.X

如下思路图：

1.如下创建一个DataFrame

       import spark.implicits._
      val documentDF = spark.createDataFrame(Seq(
        ("1","北京市朝阳区春晓园北区7号楼".wordSplit()),
        ("2","北京市海淀区学院路20号院甲2号楼".wordSplit()),
        ("3","北京市西城区复兴门北大街4号楼6".wordSplit()),
        ("4","北京市西城区西交民巷64号院1号楼2".wordSplit()),
        ("5","北京市海淀区花园路10号院3号楼7".wordSplit())

      )).toDF("id","name")

2.对DataFrame 利用Word2vec进行模型转换

      //设置特征向量维数为5
      val word2Vec = new Word2Vec().setInputCol("name").setOutputCol("outName").setVectorSize(5).setMinCount(0)
      val word2Vec_model = word2V

最低0.47元/天解锁文章

bigdataCoding

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Spark NLP实现本文挖掘

本机运用的技术栈为NLP（Word2Vec）关于NLP的相关理论请提前梳理清楚Spark mlib，rdd,dataframe,graph（顶点，边，连通图等基本概念）Spark 2.2.0,JDK 1.8.0 ,Scala 2.1.X如下思路图：1.如下创建一个DataFrame import spark.implicits._ val documentDF = spar...
复制链接

扫一扫

专栏目录