lucene学习：理解lucene分析器

最新推荐文章于 2019-01-08 23:34:28 发布

LDX101214

最新推荐文章于 2019-01-08 23:34:28 发布

阅读量1.3k

点赞数

分类专栏： Java 文章标签： lucene 索引搜索

本文链接：https://blog.csdn.net/u010623907/article/details/45153669

版权

Java 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

lucene分析器主要用于将一个field文本转换为最基本的索引表示单元-term，也可以用于在使用QueryParser进行搜索时高亮显示被搜索的内容时。

lucene内置有四个分析器：WhitespaceAnalyzer、SimpleAnalyzer、StopAnalyser、StandardAnalyzer

WhitespaceAnalyzer：分析器是通过空格来分割文本信息

SimpleAnalyzer：分析器会首先通过非字母字符来拆分文本信息，并统一转为小写格式，会去掉数字类型的字符

StopAnalyser：和SimpleAnalyzer分析器类似，但StopAnalyser会去掉一些常用单词（the、a、an..）

StandardAnalyzer：是lucene最复杂的核心分析器，可以识别某些种类的语汇单元，如公司名称、Email、主机名称等，它会将语汇单元转为小写格式，并去除掉停用词和标点符号

在索引过程中使用分析器：

创建索引时，首先创建一个Analyzer对象，然后将Analyzer对象传递个IndexWriterConfig对象，代码如下：

                File  indexDir = new File("D://luceneData");
		File  dataDir  = new File("D://luceneIndex");
		FSDirectory directory = FSDirectory.open(dataDir);
		Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_35);
//		Analyzer luceneAnalyzer = new PaodingAnalyzer();
		File[] dataFiles = indexDir.listFiles();
		IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_35, luceneAnalyzer);
		IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);

在lucene中，只有被分析的语汇单元才能被搜索到，例外情况就是在创建filed时使用Field.Index.NOT_ANALYZED参数或者使用Field.Index.NOT_ANALYZED_NO_NORMS参数，在这种情况下整个field都会被当成一个语汇单元处理，代码如下：

                        Document document = new Document();
			document.add(new Field("name",getFileName(dataFiles[i]),Store.YES,Index.ANALYZED));//使用分析器
			document.add(new Field("path",dataFiles[i].getPath(),Store.YES,Index.NOT_ANALYZED));//不使用分析器

在搜索过程中使用分析器：
使用QueryParser搜索时，可以利用分析器将用户想要搜索的内容分割成各个项以用于搜索。在创建QueryParser对象时传入分析器对象，
代码如下：

//        Analyzer analyzer = new PaodingAnalyzer();
        Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_35);
        QueryParser parser = new QueryParser(Version.LUCENE_35, fields, analyzer);

LDX101214

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene学习：理解lucene分析器

lucene分析器主要用于将一个field文本转换为最基本的索引表示单元-term，也可以用于在使用QueryParser进行搜索时高亮显示被搜索的内容时。lucene内置有四个分析器：WhitespaceAnalyzer、SimpleAnalyzer、StopAnalyser、StandardAnalyzerWhitespaceAnalyzer：分析器是通过空格来分割文本信息Si
复制链接

扫一扫