MoreLikeThis实现检索相似文档

最新推荐文章于 2023-10-15 15:30:23 发布

foamflower

最新推荐文章于 2023-10-15 15:30:23 发布

阅读量3.5k

点赞数

分类专栏： Lucene&heritrix&paoding 文章标签： vector lucene integer string 文档 query

本文链接：https://blog.csdn.net/foamflower/article/details/6048667

版权

Lucene&heritrix&paoding 专栏收录该内容

44 篇文章 0 订阅

订阅专栏

本文介绍如何使用Lucene的MoreLikeThis功能进行相似文档检索，包括如何设置索引、使用MoreLikeThis类检索相似文档的具体步骤及原理。此外，还讨论了如何利用termvector进行文档相似度计算。

摘要由CSDN通过智能技术生成

输入“related:doc_id”返回索引库中的相关文档

 
 public 
 static 
 void main(String[] args) 
 throws IOException { 
 
 FSDirectory directory 
 = FSDirectory.open( 
 new File( 
 "D://DATAMANAGER//INDEX//SYS_3000")); 
 
 IndexReader r 
 = IndexReader.open(directory); 
 
 MoreLikeThis mlt 
 = 
 new MoreLikeThis(r); 
 
 mlt.setFieldNames( 
 new String[]{ 
 "docName", 
 "content"}); 
 
 mlt.setMaxQueryTerms( 
 5); 
 
 String queryString 
 = 
 "related:18"; 
 
  
 if(queryString.startsWith( 
 "related:")){ 
 
 
  
   //docId对应lucene内部的Doc.id字段，一般我们先通过检索一次获取到Lucene内部的docNum然后再根据这个docNum调用MoreLikeThis提供的接口（看了一下solr的MoreLikeThis组件的实现代码，其也是采用这种思想。不过它支持query查询多个docNum，然后再把每个docNum通过like方法去检索出的结果合在一起） 
  
   
 int docId 
 = Integer.parseInt(queryString.substring( 
 8)); 
 
  System.out.println(docId 
 + 
 ":" 
 +r.isDeleted(docId)); 
 
   
 if( 
 !r.isDeleted(docId)){ 
 
   Query query 
 = mlt.like(docId); 
 
   System.out.println( 
 "query:" 
 +query.toString()); 
 
   IndexSearcher searcher 
 = 
 new IndexSearcher(r); 
 
   TopDocs topDocs 
 = searcher.search(query, 
 10); 
 
   ScoreDoc[] sd 
 = topDocs.scoreDocs; 
 
    
 for( 
 int i 
 = 
 0;i 
 <sd.length;i 
 ++){ 
 
    Document d 
 = searcher.doc(sd[i].doc); 
 
    System.out.println(d.getField( 
 "docId").stringValue() 
 + 
 "=" 
 +d.get( 
 "docName")); 
 
   } 
 
      } 
 
     } 
 
} 

1、为何找不到MoreLikeTihs的jar包？

使用org.apache.lucene.search.similar包的MoreLikeThis类。在Lucene 1.9它属于外部包"similarity"，从Lucene 2.1起，它属于新的外部包"queries"。

在contrib/queries目录下的lucene-queries-3.0.2.jar

2、like(int docNum)帮你做了什么？

like(int docNum)它首先根据传入的docNum找出该doc里的高频terms，然后用这些高频terms生成Queue，最后把Queue传进search方法得到最后结果。它的主要思想就是认为这些高频terms足以表示doc信息，然后通过搜索得到最后与此doc类似的结果。

下面为网上转载的一篇文章，引自：http://hi.baidu.com/savagert/blog/item/060d0d0974387c346b60fb1b.html

Leveraging term vectors
所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率.

如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项:

Field options for term vectors
TermVector.YES – record the unique terms that occurred, and their counts, in each document, but do not store any positions or offsets information.
TermVector.WITH_POSITIONS – record the unique terms and their counts, and also the positions of each occurrence of every term, but no offsets.
TermVector.WITH_OFFSETS – record the unique terms and their counts, with the offsets (start & end character position) of each occurrence of every term, but no positions.
TermVector.WITH_POSITIONS_OFFSETS – store unique terms and their counts, along with positions and offsets.
TermVector.NO – do not store any term vector information.
If Index.NO is specified for a field, then you must also specify TermVector.NO.

这样在index完后, 给定这个document id和field名称, 我们就可以从IndexReader读出这个term vector(前提是你在indexing时创建了terms vector):
TermFreqVector termFreqVector = reader.getTermFreqVector(id, "subject");
你可以遍历这个TermFreqVector去取出每个词和词频, 如果你在index时选择存下offsets和positions信息的话, 你在这边也可以取到.

有了这个term vector我们可以做一些有趣的应用:
1) Books like this
比较两本书是否相似,把书抽象成一个document文件, 具有author, subject fields. 那么现在就通过这两个field来比较两本书的相似度.
author这个field是multiple fields, 就是说可以有多个author, 那么第一步就是比author是否相同,
String[] authors = doc.getValues("author");
BooleanQuery authorQuery = new BooleanQuery(); // #3
for (int i = 0; i < authors.length; i++) { // #3
    String author = authors[i]; // #3
    authorQuery.add(new TermQuery(new Term("author", author)), BooleanClause.Occur.SHOULD); // #3
}
authorQuery.setBoost(2.0f);
最后还可以把这个查询的boost值设高, 表示这个条件很重要, 权重较高, 如果作者相同, 那么就很相似了.
第二步就用到term vector了, 这里用的很简单, 单纯的看subject field的term vector中的term是否相同,
TermFreqVector vector = // #4
reader.getTermFreqVector(id, "subject"); // #4
BooleanQuery subjectQuery = new BooleanQuery(); // #4
for (int j = 0; j < vector.size(); j++) { // #4
    TermQuery tq = new TermQuery(new Term("subject", vector.getTerms()[j]));
    subjectQuery.add(tq, BooleanClause.Occur.SHOULD); // #4
}

2) What category?
这个比上个例子高级一点, 怎么分类了,还是对于document的subject, 我们有了term vector.
所以对于两个document, 我们可以比较这两个文章的term vector在向量空间中的夹角, 夹角越小说明这个两个document越相似.
那么既然是分类就有个训练的过程, 我们必须建立每个类的term vector作为个标准, 来给其它document比较.
这里用map来实现这个term vector, (term, frequency), 用n个这样的map来表示n维. 我们就要为每个category来生成一个term vector, category和term vector也可以用一个map来连接.创建这个category的term vector, 这样做:
遍历这个类中的每个document, 取document的term vector, 把它加到category的term vector上.
private void addTermFreqToMap(Map vectorMap, TermFreqVector termFreqVector) {
    String[] terms = termFreqVector.getTerms();
    int[] freqs = termFreqVector.getTermFrequencies();
    for (int i = 0; i < terms.length; i++) {
        String term = terms[i];
        if (vectorMap.containsKey(term)) {
            Integer value = (Integer) vectorMap.get(term);
            vectorMap.put(term, new Integer(value.intValue() + freqs[i]));
        } else {
            vectorMap.put(term, new Integer(freqs[i]));
        }
   }
}
首先从document的term vector中取出term和frequency的list, 然后从category的term vector中取每一个term, 把document的term frequency加上去.OK了

有了这个每个类的category, 我们就要开始计算document和这个类的向量夹角了
cos = A*B/|A||B|
A*B就是点积, 就是两个向量每一维相乘, 然后全加起来.
这里为了简便计算, 假设document中term frequency只有两种情况, 0或1.就表示出现或不出现
private double computeAngle(String[] words, String category) {
    // assume words are unique and only occur once
    Map vectorMap = (Map) categoryMap.get(category);
    int dotProduct = 0;
    int sumOfSquares = 0;
    for (int i = 0; i < words.length; i++) {
        String word = words[i];
        int categoryWordFreq = 0;
        if (vectorMap.containsKey(word)) {
            categoryWordFreq = ((Integer) vectorMap.get(word)).intValue();
        }
        dotProduct += categoryWordFreq; // optimized because we assume frequency in words is 1
        sumOfSquares += categoryWordFreq * categoryWordFreq;
    }
    double denominator;
    if (sumOfSquares == words.length) {
        // avoid precision issues for special case
        denominator = sumOfSquares; // sqrt x * sqrt x = x
    } else {
        denominator = Math.sqrt(sumOfSquares) *
        Math.sqrt(words.length);
    }
    double ratio = dotProduct / denominator;
    return Math.acos(ratio);
}
这个函数就是实现了上面那个公式还是比较简单的.