![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene
文章平均质量分 78
dmfrm
这个作者很懒,什么都没留下…
展开
-
基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测
什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency),汉译为词频-逆文本频率指数。TF指一个词出现的频率,假设在一篇文章中某个词出现的次数是n,文章的总词数是N,那么TF=n/N逆文本频率指数IDF一般用于表示一个词的权重,其求解办法为IDFi=log(D/Dw),这里D指的是文本总量,Dw指的是词i在Dw篇文本中出现过。...原创 2018-07-21 21:06:23 · 4267 阅读 · 6 评论 -
基于Lire库搜索相似图片
什么是LireLIRE(Lucene Image REtrieval)提供一种的简单方式来创建基于图像特性的Lucene索引。利用该索引就能够构建一个基于内容的图像检索(content- based image retrieval,CBIR)系统,来搜索相似的图像。LIRE使用的特性都取自MPEG-7标准: ScalableColor、ColorLayout、EdgeHistogram。此外该...原创 2018-07-22 16:50:58 · 4605 阅读 · 1 评论