lucene提供的demo程序中只支持英文的索引,下文将介绍如何在demo中添加中文索引
1.下载lucene的源码和中文解析器源码
其中中文解析器的下载地址是:http://svn.apache.org/repos/asf/lucene/java/trunk/contrib/
2.重新打包lucene-1.4.3.jar使其包含中文解析器
修改demo程序中语言解析器的调用:
...
try {
IndexWriter writer = new IndexWriter("index", new StandardAnalyzer(),
true);
indexDocs(writer, new File(args[0]));
...
改为
...
try {
IndexWriter writer = new IndexWriter("index", new ChineseAnalyzer(),
true);
indexDocs(writer, new File(args[0]));
...
重新打包lucene-demos-1.4.3.jar
3.按照lucene帮助建立索引,之后我们就可以进行中文检索了
由于lucene提供的中文解析器没有配合字典使用,并且采用的是多元分词,效率可能会比较低,
但是为二次开发提供了比较好的基础。