基于Spark的TF-IDF算法的中文文本相似度实现
Spark version:spark 2.2.0 Hadoop version:Hadoop 2.6.5 Scala
version:scala 2.11
ansj version:5.1.5
第一、先说下应用场景吧,用户给出一段文字然后我返回十个与这段文字最相似的文件名称。
第二、什么是TF-IDF算法?我就简单介绍一下,因为百度上也有许多的介绍,TF-IDF用中文来
原创
2018-02-05 10:22:52 ·
3349 阅读 ·
3 评论