![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
lucene
shendeguang
这个作者很懒,什么都没留下…
展开
-
lucene
Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene的目标是为各种中小型应用程序加入全文检索功能一、开始首先在Apache下载Lucene 2.3.0包,其中包含了核心jar和LuceneAPI文档,解压后,将 lucene-core-2.3.0.jar放在classpath中。原创 2012-11-25 19:05:00 · 337 阅读 · 0 评论 -
文本分析器Analyzer原理及常用Analyzer的功能
Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程。这里所说的文本特征,可以是词或者是短语。它主要包括以下四个步骤:分词,将文本解析为单词或短语归一化,将文本转化为小写停用词处理,去除一些常用的、无意义的词提取词干,解决单复数、时态语态等问题Lucene Analyzer包含两个核心组件,Tokenizer以及TokenFilter。两者的区别在于,转载 2012-11-26 14:34:20 · 2404 阅读 · 0 评论 -
lucene 分词器Analyzer
由于Lucene的analyisis包下的Standard包下的StandardAnalyzer()功能很强大,英文的处理能力同于StopAnalyzer而且支持CJK分词,我们简要说一下.此包下的文件是有StandardTokenizer.jj经过javac命令生成的.由于是机器自动生成的代码,可能可读性很差,想了解的话好好看看那个StandardTokenizer.jj文件就会比较明了了.转载 2012-11-26 15:05:55 · 1538 阅读 · 0 评论 -
lucene之Query
lucene之Querypackage cn.zqh.lucene.query;import java.io.IOException;import java.util.Date;import org.apache.lucene.document.DateTools;import org.apache.lucene.document.Document;import org转载 2012-11-26 21:36:20 · 343 阅读 · 0 评论 -
Lucene的基本用法
本文的目的不在于对Lucene的概念和设计这些进行介绍,仅在于介绍怎么样去使用Lucene来达到自己想要的几种常见的全文检索的需求,如果想深入了解Lucene的话本文不会带给你什么收获的。看完本文后想更深入的了解Lucene请访问:http://lucene.apache.org一. 概述随着系统信息的越来越多,怎么样从这些信息海洋中捞起自己想要的那一根针就变得非常重要了,全文检索是通常转载 2012-11-26 21:45:49 · 441 阅读 · 0 评论 -
lucene之Analyzer之PaoDingAnalyzer
http://blog.csdn.net/love_javaprogram/article/details/6549320PaodingAnalyzer使用方法:PaodingAnalyzer使用方法:下面进入主题,来讲解Lucene和"庖丁解牛"中文分词包的整合. "庖丁解牛"的下载地址是[url]http://code.google.com/p/paodin转载 2012-11-26 22:10:59 · 655 阅读 · 0 评论 -
lucene之Document之人为设置相关度得分
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。如果不进行设定,则Document转载 2012-11-26 22:13:07 · 442 阅读 · 0 评论 -
lucene之document
org.apache.lucene.document这个包当然是关于lucene索引的数据结构单元——document。这个包里面的类不多,就是围绕Document和Field两个概念展开的。这两个东东我在前一篇贴过定义了,就不多说。 Document:Document类看着方法挺多,说到底就是干了一件事:存储Field。Document其实就是一个Field的List,大部分方法只不过是为了方便转载 2012-11-26 21:58:32 · 2924 阅读 · 0 评论