搜索引擎
iteye_4378
这个作者很懒,什么都没留下…
展开
-
Lucene(2.4.1)技术研究(1)--lucene技术
1、lucene是apache下的一个开源框架,主要使用于处理大量资源全文搜索的时间使用的工具。从其官方网站定义为:Apache的Lucene的是一种基于java语言开发的、高性能、跨平台、几乎适用于任何程序的全文搜索引擎。并且apache的Lucenea是完全开源的。当前最新版本是2.4.1。 下边我们首先看一个简单的Lucene的例子。 package com.ikdy.yemi...2010-03-23 15:38:33 · 120 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(2)--分析事例
1、我们去分析一下该段程序。 a) 首先我们创建一个类IndexWriter,该类是lucene创建索引的核心,其主要功能是将所有的数据源所有内容,经过分词处理,创建成索引格式的文件(同数据库想对比,一个索引文件就相当一张表) b) 然后,我们定义了document类。Lucene是将所有的数据源都转换成Document类型的文件,lucene内部只能识别出Document类型的文件。...2010-03-23 15:44:43 · 102 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(3)--Document源代码
1、Document文件 Document是lucene自己定义的一种文件格式,lucene使用docement来代替对应的物理文件或者保存在数据库中的数据。因此Document只能作为数据源在Lucene中的数据存贮的一种文件形式。 Document只是负责收集数据源,因为不同的文件可以构建同一个Document。只要用户将不同的文件创建成Document类型的文件,Lucene就能...2010-03-23 16:08:01 · 117 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(4)--Field源代码
Field类(类似数据库中的字段与属性) 该类实现接口:Fieldable 继承静态类: AbstractField Fieldable接口。主要是描述一些基础信息的内容 设置权重以及获取权重 [void setBoost(float boost), float getBoost();] 获取名称String name(); ...2010-03-23 16:10:51 · 95 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(5)--IndexWrite类源代码解析(一)
1、indexWriter类主要功能是对索引的创建,加入Document后,合并各种索引段,以及控制与索引相关的其他方面,它是lucene索引的主要操纵者。 2、我们首先看看IndexWriter的构造函数 public IndexWriter(String path, Analyzer a, boolean create, MaxFieldLength mfl) public ...2010-03-23 16:11:47 · 180 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(5)--IndexWrite类源代码解析(二)--Directory 解析
首先我们看构造函数中的第一个类Directory 类。根据这个类的英文,我们能得出这个类就是关于目录操作的。Directory 是一个抽象类。其有4个子类,分别是:DbDirectory, FSDirectory, JEDirectory, RAMDirectory 首先我们看看Directory 的类 public abstract class Directory { volatil...2010-03-23 16:12:51 · 128 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(5)--IndexWrite类源代码解析(三)FSDirectory介绍
其中常用的就是FSDirectory:表示对文件系统目录的操作。RAMDirectory :内存中的目录操作。 首先我们看看类FSDirectory的源代码 import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.I...2010-03-23 16:13:50 · 172 阅读 · 0 评论 -
Lucene(2.4.1)技术研究(5)--IndexWrite类源代码解析(四)RAMDirectory介绍
RAMDirectory是Directory抽象类在使用内存最为文件存储的实现类,其主要是将所有的索引文件保存到内存中。这样可以提高效率。但是如果索引文件过大的话,则会导致内存不足,因此,小型的系统推荐使用,如果大型的,索引文件达到G级别上,推荐使用FSDirectory 首先我们看看该类的源代码: 首先该类继承与抽象类Directory,并且实现了序列话接口 1/** */...2010-03-23 16:14:53 · 166 阅读 · 0 评论 -
中文分词 mmseg4j 在 lucene 中的使用示例
mmseg4j 发布也有一段时间了,前些日子忙着发布新的版本,修正 bug 之类的。使用示例一直拖到现在,其实 svn 上的 test 有使用 lucene 例子。如果你了解 lucene ,就不用例子也可以很方便与它集成。 mmseg4j 有几个 analyzer:SimpleAnalyzer、ComplexAnalyzer、MaxWordAnalyzer、MMSegAnalyzer。前面...2010-03-23 16:27:09 · 219 阅读 · 0 评论