![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene
文章平均质量分 86
iteye_14059
这个作者很懒,什么都没留下…
展开
-
Lucene的基本分词过程
一、Analyzer Analyzer类是所有分词器的基类,它是个抽象类,所有的子类必须实现Java代码 @Override protected TokenStreamComponents createComponents(String fieldName, Reader reader) { return new TokenStr...原创 2014-05-12 21:50:36 · 145 阅读 · 0 评论 -
LUCENE3.0 自学吧 7 CharTokenizer
CharTokenizer 是一个抽象类,它主要是对西文字符进行分词处理的。常见的英文中,是以空格、标点为分隔符号的,在分词的时候,就是以这些分隔符作为分词的间隔符的。 [java] view plaincopy package org.apache.lucene.analysis; import java.io.IOExcept...原创 2014-05-12 21:58:41 · 177 阅读 · 0 评论 -
CharTokenizer对西文字符进行分词处理
CharTokenizer是一个抽象类,它主要是对西文字符进行分词处理的。常见的英文中,是以空格、标点为分隔符号的,在分词的时候,就是以这些分隔符作为分词的间隔符的。package org.apache.lucene.analysis;import java.io.IOException;import java.io.Reader;// CharTokenizer 是一个抽象类pub...原创 2014-05-12 22:00:39 · 220 阅读 · 0 评论 -
Lucene中文分析器的中文分词准确性和性能比较
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的...原创 2014-05-13 15:17:43 · 149 阅读 · 0 评论 -
Lucene的分析过程
回顾倒排索引的构建收集待建索引的原文档(Document)将原文档传给词条化工具(Tokenizer)进行文本词条化将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term)将得到的词项(Term)传给索引组件(Indexer),建立倒排索引注:详细文档->倒排索引的理论过程见词项词典及倒...原创 2014-05-13 15:18:52 · 121 阅读 · 0 评论 -
Lucene 4.0升级指南
Apache Lucene Migration GuideFour-dimensional enumerationsLucene4.0变更了一些对象,比如: TermDocs替换成DocsEnum。以下是官方升级指南,供参考。官方网址:http://lucene.apache.org/core/4_0_0/MIGRATE.html Flexible indexing c...原创 2014-05-15 11:33:57 · 343 阅读 · 0 评论 -
Lucene 基础理论
1. 全文检索系统与Lucene简介1.1 什么是全文检索与全文检索系统全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于...原创 2014-05-15 11:43:14 · 107 阅读 · 0 评论 -
solr中如何定义自己的解析器插件(QParserPlugin)
/*****************************************************/ >solr中如何定义自己的解析器插件/*****************************************************/ 0.为什么要自定义自己的解析器插件/************************************...原创 2014-05-15 13:39:25 · 321 阅读 · 0 评论