Lucene+分词器精确提取用户自定义关键词(Lucene版本3.6)

最新推荐文章于 2024-06-05 09:49:49 发布

一季夜风

最新推荐文章于 2024-06-05 09:49:49 发布

阅读量1.6w

点赞数

分类专栏： chatbot的坑文章标签： lucene 索引

本文链接：https://blog.csdn.net/EchoYY/article/details/78291868

版权

此篇博客的Lucene版本是3.6.0，若您的Lucene版本为5.X可以移步到此博文http://blog.csdn.net/echoyy/article/details/78468225

在分词的过程中，有时候需要只提取词典里自定义好的关键词，而传统的分词工具如(IKanalyzer)好像并不支持此功能

CSDN论坛里有人给出解决方法，是采用Lucene的TermQuery方法来进行索引的检索功能

然而我自己在调用TermQuery时候反而什么都检索不出来

最后发现是索引的建立问题

最开始使用的是流的方式读词典文件就像酱样doc.add(new Field("contents",new FileReader(files)));

然后使用TermQuery就gg了，因此唯结果论话推测这种方式在建立索引的时候应该是对文本进行了拆解，也就是说比如词典里存的是“你好”，这种方式在建立索引时将“你好”拆成了“你”和“好”，导致TermQuery在对“你好”进行检索的过程中检索不到值。

解决方案是先用BufferReader来读取词典中的文本，将其存到一个List<String> content中，后续循环取List中的值调用doc.add(new Field("contents",content,Field.Store.YES, Field.Index.NOT_ANALYZED));方法

注意这里的域索引选项（Field.Index.*)使用的是Index.NOT_ANALYZED参数，这是由于该参数实际上将域值作为单一语汇单元并使之能被搜索。适用于索引那些不能被分解的域值比如URL、文件路径、日期、人名、电话号码等。

然后，搞定

最后是索引和检索的代码

1、建立索引

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.a