基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测

最新推荐文章于 2024-07-16 17:29:04 发布

dmfrm

最新推荐文章于 2024-07-16 17:29:04 发布

阅读量4.3k

点赞数 5

分类专栏： Lucene 文本相似度算法文章标签： TF-IDF 余弦相似 Lucene

本文链接：https://blog.csdn.net/u010889616/article/details/81149122

版权

该博客介绍了如何基于Lucene、TF-IDF和余弦相似性来实现长文本的相似度检测。首先解释了TF-IDF和余弦相似性的概念，然后讨论了它们在自动提取关键词和找出相似文章中的应用。接着，详细说明了通过Gradle添加依赖、使用WebMagic爬虫获取样本库、进行分词、构建Lucene索引以及实现TF-IDF算法的过程。最后，提供了源码下载链接。

摘要由CSDN通过智能技术生成

什么是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)，汉译为词频-逆文本频率指数。

TF指一个词出现的频率，假设在一篇文章中某个词出现的次数是n，文章的总词数是N，那么TF=n/N

逆文本频率指数IDF一般用于表示一个词的权重，其求解办法为IDFi=log(D/Dw)，这里D指的是文本总量，Dw指的是词i在Dw篇文本中出现过。

这篇文章讲解的很详细《TF-IDF原理及使用》

什么是余弦相似

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。

对于二维空间，根据向量点积公式，显然可以得知：

假设向量a、b的坐标分别为(x1,y1)、(x2,y2) 。则：

TF-IDF和余弦相似应用

这里有两篇文章讲解的非常清楚，我就不再多说了，直接上文章链接。

《TF-IDF与余弦相似性的应用（一）：自动提取关键词》

《TF-IDF与余弦相似性的应用（二）：找出相似文章》

下面就具体讲解下代码的实现。

添加Gradle依赖

用到了WebMagic爬虫框架、Jieba分词java版，Lucene、Apache等一些库

    compile group: 'us.codecraft', name: 'webmagic-core', version: '0.7.3'
    // https://mvnrepository.com/artifact/us.codecraft/webmagic-extension
    compile group: 'us.codecraft', name: 'webmagic-extension', version: '0.7.3'

    // https://mvnrepository.com/artifact/com.huaban/jieba-analysis
    compile group: 'com.huaban', name: 'jieba-analysis', version: '1.0.2'

    compile group: 'commons-io', name: 'commons-io', version: '2.6'

    compile group: 'org.apache.lucene', name: 'lucene-core', version: '3.6.0'
    compile group: 'org.apache.lucene', name: 'lucene-queryparser', version: '3.6.0'