![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene
文章平均质量分 78
wbia2010lkl
这个作者很懒,什么都没留下…
展开
-
Project2--Lucene的Ranking算法修改:BM25算法
<br />1. BM25算法<br />BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下:<br /> <br />∑<br /> <br />其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率。<br />K1通常为1.2,通常为0-1000<br />K的形式较为复杂<br /> <br />K=<br /> <br />上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0.75<br /> <br />2.原创 2010-11-30 23:26:00 · 9409 阅读 · 0 评论 -
IKAnalyzer的分词效果
<br /> 为了能够对抓取的中文信息进行检,需要选择分词器对其进行分词,IKAnalyzer是一个不错的选择,小试了一下IKAnalyzer的分词效果,感觉不错,代码如下:<br />package org.kaiser; import java.io.IOException; import java.io.StringReader; import org.wltea.analyzer.IKSegmentation; import org.wltea.analyzer.Lexeme;原创 2010-11-10 21:14:00 · 3926 阅读 · 1 评论 -
Project2--配置Lucene, 对ccer数据建立索引和查询系统
Step 1 读取文件夹下的所有文件public static String getFiles(File f) { if(f.isDirectory()) { File[]fs=f.listFiles(); for(int i=0;i原创 2010-11-19 19:47:00 · 1149 阅读 · 0 评论 -
Project2--Lucene的Ranking机制浅析
1. 原理首先,Lucene采用了空间向量模型(VSM)来进行检索。其次,Lucene的打分机制是根据以下公式:score(q,d)=coord(q,d)xqueryNorm(q)x∑(tf (t ind )xidf(t)2 xt.getBoost()xnorm(t,d)))其中coord表示一篇文档所包含的搜索词越多,此文档的分数越高;queryNorm计算每个查询条目的方差和,其结果对排序没有影响2. 如何计算各个部分的值a. tf和idftf表示某个term在文档中出现的词频,idf表示term在几个原创 2010-11-24 21:20:00 · 2600 阅读 · 0 评论