Lucene
文章平均质量分 78
wawaboss
这个作者很懒,什么都没留下…
展开
-
lucene搜索引擎技术的分析与整理(代码情景分析)
6. 测试的主程序 规则: 加粗体的黑色代码,表示将作深入分析 try { Directory directory = new RAMDirectory(); Analyzer analyzer = new SimpleAnalyzer(); IndexWriter writer = new IndexWriter(directory, analyzer, true);转载 2006-12-31 22:18:00 · 1023 阅读 · 0 评论 -
Lucene.net 系列二 --- index (上)
Lucene建立Index的过程: 1. 抽取文本. 比如将PDF以及Word中的内容以纯文本的形式提取出来.Lucene所支持的类型主要为String,为了方便同时也支持Date 以及Reader.其实如果使用这两个类型lucene会自动进行类型转换. 2. 文本分析. Lucene将针对所给的文本进行一些最基本的分析,并从中去除一些不必要的信息,比如转载 2006-12-31 22:23:00 · 806 阅读 · 0 评论 -
Lucene的平行索引
有时对于一个Document来说,有一些Field会被频繁地操作,而另一些Field则不会。这时可以将频繁操作的Field和其他Field分开存放,而在搜索时同时检索这两部分Field而提取出一个完整的Document。 这要求两个索引包含的Document的数量必须相同。 在创建索引的时候,可以同时创建多个IndexWriter,将一个Document根据需要拆分成多个包转载 2006-12-31 21:47:00 · 580 阅读 · 0 评论 -
Lucene.net 系列一
What’s Lucene Lucene是一个信息检索的函数库(Library),利用它你可以为你的应用加上索引和搜索的功能. Lucene的使用者不需要深入了解有关全文检索的知识,仅仅学会使用库中的一个类,你就为你的应用实现全文检索的功能.不过千万别以为Lucene是一个象google那样的搜索引擎,Lucene甚至不是一个应用程序,它仅仅是一个工具,一个Library.你也可以把它转载 2006-12-31 22:21:00 · 842 阅读 · 0 评论 -
lucene结构说明中文文档
本文定义了Lucene(版本1.3)用到的索引文件的格式。Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。随着Lucene不断发展,本文也应该更新转载 2006-12-31 21:57:00 · 807 阅读 · 0 评论 -
关于Lucene的详细说明和操作使用方式
Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。 本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器,它将查询字串解析为Lucene Query对象。 项(Term) 一条搜索语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。 单独项就是转载 2006-12-31 21:55:00 · 977 阅读 · 0 评论 -
Lucene in Action
Lucene in Action中文版 第一部分 Lucene核心1. 接触Lucene 2. 索引 3. 为程序添加搜索4. 分析5. 高极搜索技术6. 扩展搜索第二部分 Lucene应用7. 分析常用文档格式8. 工具和扩充9. Lucene其它版本1转载 2006-12-31 21:53:00 · 1636 阅读 · 0 评论 -
Lucene 的学习
通过这几天的看书和学习,对 Lucene 有了更进一步的认识,所以总结一下这些天的学习成果把 Lucene 的学习心得也学出来。1 Lucene 的认识 提到 Lucene 很多人都知道这个开源的搜索工具,其魅力也是很大的。它让我们对搜索引擎的认识不在那么神秘,也不会在觉得百度和 google 的技术多么的高深没测,其实其原理都是一样的,只是他们要做的更好,走的更远罢了。转载 2006-12-31 22:52:00 · 1386 阅读 · 0 评论 -
lucene搜索引擎技术的分析与整理(lucene代码分析)
5. Lucene 代码分析 应用情景分析 Query query = parser.parse(queries[j]); 获得布尔查询 hits = searcher.search(query); return new Hits(this, query, filter); getMoreDocs(50) TopDocs top转载 2006-12-31 22:16:00 · 920 阅读 · 0 评论 -
lucene搜索引擎技术的分析与整理(功能分析)
2. 功能分析2.1. 与Oracle数据库对比Lucene的API接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看:可以先把Lucene当成一个支持全文索引的数据库系统。转载 2006-12-31 22:10:00 · 1160 阅读 · 0 评论 -
lucene搜索引擎技术的分析与整理(lucene文档结构)
Lucene文档结构 Lucene中最基础的概念是索引(index),文档(document.,域(field)和项(term)。索引包含了一个文档的序列。· 文档是一些域的序列。· 域是一些项的序列。· 项就是一个字串。存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。4.1. Lucene概念详细介绍域的转载 2006-12-31 22:04:00 · 896 阅读 · 0 评论 -
用Lucene建立索引及查询示例
首先去 apache 网站下载 lucene 的开发包,并配置好环境变量http://jakarta.apache.org/lucene/docs/index.html建立索引程序:/* * Created on 2004-4-26 */import org.apache.lucene.index.*;import org.apache.lucene.analysis.standard.*;i转载 2006-12-31 21:51:00 · 678 阅读 · 0 评论 -
Document类
建立索引的过程建立索引是搜索引擎的第一步,建立索引可以分为以下几个步骤:提取文本信息构建Document分析建立索引 提取文本信息Lucene对文档数据建立索引的第一步就是把这些需要建立索引的文档数据转换为Lucene能够处理的类型。实际上Lucene是无法处理pdf, txt, doc ... 这些格式的物理数据的,那么如果有一堆PDF格式的文件或者是DOC格式的转载 2006-12-31 21:49:00 · 1487 阅读 · 1 评论 -
Lucene.net系列六 -- search 下
本文主要结合测试案例介绍了Lucene下的各种查询语句以及它们的简化方法.通过本文你将了解Lucene的基本查询语句,并通过学习相关的测试代码以加强了解. 具体的查询语句在了解了SQL后, 你是否想了解一下查询语法树?在这里简要介绍一些能被Lucene直接使用的查询语句.1. TermQuery查询某个特定的词,在文章开始的例子中已有介绍.常用于查询关键字.转载 2006-12-31 22:28:00 · 826 阅读 · 0 评论 -
Lucene.net 系列五 --- search 上
在前面的系列我们一直在介绍有关索引建立的问题,现在是该利用这些索引来进行搜索的时候了,Lucene良好的架构使得我们只需要很少的几行代码就可以为我们的应用加上搜索的功能,首先让我们来认识一下搜索时最常用的几个类.查询特定的某个概念当我们搜索完成的时候会返回一个按Sorce排序的结果集Hits. 这里的Score就是接近度的意思,象Google那样每个页面都会有一个分值,搜索结果按分值排转载 2006-12-31 22:27:00 · 831 阅读 · 0 评论 -
Lucene.net 系列三 --- index 中
本文将进一步讨论有关Lucene.net建立索引的问题:主要包含以下主题:1.索引的权重2.利用IndexWriter 属性对建立索引进行高级管理3.利用RAMDirectory充分发挥内存的优势4.利用RAMDirectory并行建立索引5.控制索引内容的长度6.Optimize 优化的是什么?本文将进一步讨论有关Lucene.net建立索引的问题:索引的权重根据文档的转载 2006-12-31 22:24:00 · 783 阅读 · 0 评论 -
Lucene.net 系列四 --- index 下
本文将介绍有关索引并发控制的问题,以结束对Lucene.net建立索引问题的讨论.1. 允许任意多的读操作并发.即可以有任意多的用户在同一时间对同一份索引做查询工作.2. 允许任意多的读操作在索引被正在被修改的时候进行.即哪怕索引正在被优化,添加删除文档,这时也是允许用户对索引进行查询工作. (it’s so cool.)3. 同一时间只允许一个对索引修改的操作.即同一时间只允许I转载 2006-12-31 22:25:00 · 743 阅读 · 0 评论