lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档...

     1运行环境lucene2.4.1,下载地址:http://apache.etoak.com/lucene/java/lucene-2.4.1.zip

     2Lucene 简介 (文档参照http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/ )

     Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。

     3 索引和搜索

      索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想你现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话你就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有要查找的关键词,这样的话就会耗费非常多的时间,想想搜索引擎可是在毫秒级的时间内查找出要搜索的结果的。这就是由于建立了索引的原因,你可以把索引想象成这样一种数据结构,他能够使你快速的随机访问存储在索引中的关键词,进而找到该关键词所关联的文档。Lucene 采用的是一种称为反向索引(inverted index)的机制。反向索引就是说我们维护了一个词/短语表,对于这个表中的每个词/短语,都有一个链表描述了有哪些文档包含了这个词/短语。这样在用户输入查询条件的时候,就能非常快的得到搜索结果。我们将在本系列文章的第二部分详细介绍 Lucene 的索引机制,由于 Lucene 提供了简单易用的 API,所以即使读者刚开始对全文本进行索引的机制并不太了解,也可以非常容易的使用 Lucene 对你的文档实现索引。

对文档建立好索引后,就可以在这些索引上面进行搜索了。搜索引擎首先会对搜索的关键词进行解析,然后再在建立好的索引上面进行查找,最终返回和用户输入的关键词相关联的文档。

    4 Lucene 软件包分析

Lucene 软件包的发布形式是一个 JAR 文件,下面我们分析一下这个 JAR 文件里面的主要的 JAVA 包,使读者对之有个初步的了解。

Package: org.apache.lucene.document

这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。

Package: org.apache.lucene.analysis

这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。

Package: org.apache.lucene.index

这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类:IndexWriter 和 IndexReader,其中 IndexWriter 是用来创建索引并添加文档到索引中的,IndexReader 是用来删除索引中的文档的。

Package: org.apache.lucene.search

这个包提供了对在建立好的索引上进行搜索所需要的类。比如 IndexSearcher 和 Hits, IndexSearcher 定义了在指定的索引上进行搜索的方法,Hits 用来保存搜索得到的结果。

 

建立索引

为了对文档进行索引,Lucene 提供了五个基础的类,他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介绍一下这五个类的用途:

Document

Document 是用来描述文档的,这里的文档可以指一个 HTML 页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个 Field 对象组成的。可以把一个 Document 对象想象成数据库中的一个记录,而每个 Field 对象就是记录的一个字段。

Field

Field 对象是用来描述一个文档的某个属性的,比如一封电子邮件的标题和内容可以用两个 Field 对象分别描述。

Analyzer

在一个文档被索引之前,首先需要对文档内容进行分词处理,这部分工作就是由 Analyzer 来做的。Analyzer 类是一个抽象类,它有多个实现。针对不同的语言和应用需要选择适合的 Analyzer。Analyzer 把分词后的内容交给 IndexWriter 来建立索引。

IndexWriter

IndexWriter 是 Lucene 用来创建索引的一个核心的类,他的作用是把一个个的 Document 对象加到索引中来。

Directory

这个类代表了 Lucene 的索引的存储的位置,这是一个抽象类,它目前有两个实现,第一个是 FSDirectory,它表示一个存储在文件系统中的索引的位置。第二个是 RAMDirectory,它表示一个存储在内存当中的索引的位置。

熟悉了建立索引所需要的这些类后,我们就开始对某个目录下面的文本文件建立索引了,清单1给出了对某个目录下的文本文件建立索引的源代码。

建立索引 写道
package TestLucene;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.Reader;
import java.util.Date;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;

public class TxtFileIndexer {



public static void main(String[] args) {

File indexDir=new File("d:\\luceneIndex"); /*要创建的索引文件保存的位置*/
File dataDir=new File("d:\\luceneData"); /*要查询的文档的位置*/

Analyzer luceneAnalyzer =new StandardAnalyzer(); /*改类用来做分词用*/

File[] dataFiles=dataDir.listFiles(); /*获取目录的文档列表*/
Directory directory=null;
try {
   // directory = FSDirectory.getDirectory("/tmp/testindex");
   IndexWriter iwriter =new IndexWriter   (indexDir,luceneAnalyzer,true,IndexWriter.MaxFieldLength.UNLIMITED); /*实例一个索引创建器*/
   long startTime = new Date().getTime(); /*当前时间*/
   for(int i = 0; i < dataFiles.length; i++){
       // if(dataFiles[i].isFile() && dataFiles[i].getName().endsWith(".txt")){
        if(dataFiles[i].isFile()){
          System.out.println("Indexing file " + dataFiles[i].getCanonicalPath());
           Document document = new Document();
          Reader txtReader = new FileReader(dataFiles[i]);
          document.add(new Field("path",dataFiles[i].getCanonicalPath(),Field.Store.YES, Field.Index.NO)); /*添加path属性*/
          document.add(new Field("contents",txtReader)); /*添加contents属性*/
          iwriter.addDocument(document); /*加入索引器*/
}
}
iwriter.optimize();
iwriter.close();
long endTime = new Date().getTime(); /*结束时间*/

System.out.println("It takes " + (endTime - startTime)
+ " milliseconds to create index for the files in directory "
+ dataDir.getPath()); /*打印一共用来多少时间*/

} catch (IOException e) {
e.printStackTrace();
}



}
}
到此:d:\\luceneData目录下的文档被创建索引完毕,可以在索引目录里看到索引文件。

 

重要的API:

 

IndexWriter (Directory  d, Analyzer  a, boolean create, IndexDeletionPolicy  deletionPolicy, IndexWriter.MaxFieldLength  mfl)
          Expert: constructs an IndexWriter with a custom IndexDeletionPolicy , for the index in d .
IndexWriter (Directory  d, Analyzer  a, boolean create, IndexWriter.MaxFieldLength  mfl)
          Constructs an IndexWriter for the index in d .
IndexWriter (Directory  d, Analyzer  a, IndexDeletionPolicy  deletionPolicy, IndexWriter.MaxFieldLength  mfl)
          Expert: constructs an IndexWriter with a custom IndexDeletionPolicy , for the index in d , first creating it if it does not already exist.

org.apache.lucene.document
Class Document

java.lang.Object


  org.apache.lucene.document.Document


Method Summary

 void add (Fieldable  field)
          Adds a field to a document.
Constructor Summary
Field (String  name, byte[] value, Field.Store  store)
          Create a stored field with binary value.
Field (String  name, byte[] value, int offset, int length, Field.Store  store)
          Create a stored field with binary value.
Field (String  name, Reader  reader)
          Create a tokenized and indexed field that is not stored.

搜索文档

利用Lucene进行搜索就像建立索引一样也是非常方便的。在上面一部分中,我们已经为一个目录下的文本文档建立好了索引,现在我们就要在这个索引上进行搜索以找到包含某个关键词或短语的文档。Lucene提供了几个基础的类来完成这个过程,它们分别是呢IndexSearcher, Term, Query, TermQuery, Hits. 下面我们分别介绍这几个类的功能。

Query

这是一个抽象类,他有多个实现,比如TermQuery, BooleanQuery, PrefixQuery. 这个类的目的是把用户输入的查询字符串封装成Lucene能够识别的Query。

Term

Term是搜索的基本单位,一个Term对象有两个String类型的域组成。生成一个Term对象可以有如下一条语句来完成:Term term = new Term(“fieldName”,”queryWord”); 其中第一个参数代表了要在文档的哪一个Field上进行查找,第二个参数代表了要查询的关键词。

TermQuery

TermQuery是抽象类Query的一个子类,它同时也是Lucene支持的最为基本的一个查询类。生成一个TermQuery对象由如下语句完成: TermQuery termQuery = new TermQuery(new Term(“fieldName”,”queryWord”)); 它的构造函数只接受一个参数,那就是一个Term对象。

IndexSearcher

IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只读的方式打开一个索引,所以可以有多个IndexSearcher的实例在一个索引上进行操作。

搜索程序 写道

package TestLucene;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Searcher;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;

/*根据一个或则多个关键字,在多个文件里面查找出现这个关键字的文件*/
public class TxtFileSearcher {

 public static void main(String[] args) throws ParseException, IOException {
    System.out.println("please input you want search string:");
    BufferedReader bufferReader = new BufferedReader(new InputStreamReader(
     System.in));

    String queryStr = bufferReader.readLine();/*够造输入流*/
    if (queryStr == null || "".equals(queryStr)) {
       System.out.println("Please input you want search string...");
       return;/*没有输入,则返回*/
    }
    File indexDir = new File("D:\\luceneIndex");/*指定索引目录*/
    FSDirectory directory = null;
    Searcher searcher = null;
  try {
     directory = FSDirectory.getDirectory(indexDir);
     searcher = new IndexSearcher(directory);/*搜索开始*/
   } catch (IOException e) {
     e.printStackTrace();
   }
  if (!indexDir.exists()) {
     System.out.println("The Lucene index is not exist");
     return;
  }

    Query query = new QueryParser("contents", getAnalyzer()).parse(queryStr
    .trim().toLowerCase());

    ScoreDoc[] docs = searcher.search(query, searcher.maxDoc()).scoreDocs;/*得到文档*/
    System.out.println(docs.length);


    SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter(
     "<strong><font color='red'>", "</font></strong>");
    Highlighter highlighter = new Highlighter(simpleHTMLFormatter,
     new QueryScorer(query));
   highlighter.setTextFragmenter(new SimpleFragmenter(Integer.MAX_VALUE));

 

/*以上为处理高亮显示*/

    for (int i = 0; i < docs.length; i++) {
       Document doc = searcher.doc(docs[i].doc);
       System.out.println(doc.get("path"));
       System.out.println(highlighter.getBestFragment(getAnalyzer(),
      "contents", queryStr.trim().toLowerCase()));/*获得高亮显示的内容*/

    }

 }

  public static synchronized Analyzer getAnalyzer() {
    return new StandardAnalyzer();
  }

}

 

打印结果如下:

输出结果 写道
please input you want search string:
username
4
D:\luceneData\a.txt
<strong><font color='red'>username</font></strong>
D:\luceneData\1.htm
<strong><font color='red'>username</font></strong>
D:\luceneData\2.htm
<strong><font color='red'>username</font></strong>
D:\luceneData\3.htm
<strong><font color='red'>username</font></strong>

   到此:这个简单的功能就完成了!我在学这个东西的过程中有一个需求,就是一个比较大的文本文档,我要根据一些关键字来查找,把包含该关键字的那一行或几行作为摘要显示出来!没有实现 ,不知道大家有没有已经实现了的?给点建议或提示!谢谢!

  我也是刚接触这个东西!文章里有不对的地方,欢迎指正!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值