lucene
xyz2011
研究Hadoop
展开
-
lucene学习(一)
<br />转载:http://blog.csdn.net/forfuture1978/archive/2009/10/22/4711308.aspx<br /> <br />Lucene是一个高效的,基于Java的全文检索库。<br />所以在了解Lucene之前要费一番工夫了解一下全文检索。<br />那么什么叫做全文检索呢?这要从我们生活中的数据说起。<br />我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等。转载 2010-10-25 15:25:00 · 476 阅读 · 0 评论 -
如何优化Lucene
1·关闭复合文件格式 调用setUseCompoundFile(false)可以关闭复合文件选项。生成复合文件将消耗更多的时间 2·优化索引其实就是将多个索引文件合并成单个文件的过程,为了减少索引文件的数量级,能在搜索时减少读取索引文件的时间进行的操作。 3·优化索引的最佳时机是在索引过程结束后,当确认在此一段时间不会对索引文件进行更改的时候,在索引过程中优化索引只会是优化操作...2009-08-18 18:27:18 · 119 阅读 · 0 评论 -
lucene实现多词/短语搜索
不知道这个方法是否可行,我简单做了个测试。貌似还行。把具体的代码贴出来分享给大家。 通过PaodingAnalyzer、IK_Analyzer两个分词器来实现。具体分出来的无用的字:比如:的、人……,那么我们可以写一个配置文件。先罗列出一些无用的词。那么我们在建立索引的时候。就自动的把这些字给过滤掉。我是这么实现的。 public static TreeSet<String>...2009-07-14 10:57:00 · 436 阅读 · 0 评论 -
lucene索引中单词或者是多词高亮的处理
高亮的处理lucene为我们提供了Highlighter,利用它的构造函数 public Highlighter(Formatter formatter, Scorer fragmentScorer) { this(formatter,new DefaultEncoder(),fragmentScorer); } 我们可以处理高亮的词。 SimpleHTMLForma...2009-07-09 09:43:09 · 177 阅读 · 0 评论 -
一个有关lucene的困惑!(lucene的过滤问题)
我现在有这么一个问题: 索引已经建立好了。在页面上我想通过点击"过滤"按钮,对当前的某个词来过滤比如:“搜索”。 如何来实现呢?这个“搜索”是我在用Heritrix爬的过程当中分析出来的。过滤完了以后对应的索引中的词还得删除,以免我再一次在输入框中查“搜索”时,这个词是不应该被查出来的。请问各位应该如何来实现呢?我研究了下:好像要实现Filter的一个接口:...2009-07-07 13:17:21 · 128 阅读 · 0 评论 -
lucene中paoding的中文分词
1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:#values ...2009-07-02 14:11:08 · 132 阅读 · 0 评论 -
Lucene中文分词组件JE-Analysis1.5.0
<!-- Title Start--> Lucene中文分词组件JE-Analysis1.4.0 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平。 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证。 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 ...2009-07-02 00:15:19 · 174 阅读 · 0 评论 -
lucene综合使用
I.Sorting search results 在Lucene中有两种特别的类型是用来排序的:Score和Index order 要排序结果 可以使用IndexSearcher的重载serach函数,提供一个Sort参数.看个例子.SortingExample.java 01 package lia.advsearching;02 03 import org.apache.commons....2009-07-02 00:09:56 · 128 阅读 · 0 评论 -
lucene的sort的使用
Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的事情。以下代码基于Lucene 2.0。看Sort的默认构造函数,相关度就是SortField.F...原创 2009-07-02 00:05:02 · 232 阅读 · 0 评论 -
lucene的各个包的说明
Lucene各个包的说明: org.apache.lucene.document:这个包提供了一些为要索引的文档所需要的类。比如说Document、file.这样每一个文档最终被封装成一个Document对象。 org.apache.lucene.analysis : 这个包主要是对文档进行分词,文档在建立索引之前必须要进行分词,这个包的作用可以看成是为建立索引做准备工作。 org.apac...2009-06-30 22:15:24 · 347 阅读 · 0 评论 -
lucene中IndexSearch,Query,Hits的总结
IndexSearch类 查询器 搜索入口,继承自Search 1.public IndexSearcher(Directory directory) 使用方法 String IndexPath="D:/IndexPath"; Directory directory=FSDirectory.getDirectory(IndexPath); IndexSearcher search...2009-06-30 22:08:10 · 576 阅读 · 0 评论 -
lucene的总体架构
<br />Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。<br />在Lucene in action中,Lucene 的构架和过程如下图, <br /> <br />说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。<br />让我们更细一些看Lucene的各组件: <br /> 被索引的文档用D转载 2010-10-25 16:39:00 · 310 阅读 · 0 评论 -
lucene与数据库结合使用
转帖:http://jushi1988.iteye.com/blog/693188 --- 2010-06-18 17:00 代码修改: 修改重复创建索引,添加双字段高亮。 今天发一个简单的和数据库交互的Lucene示例,只是初步的靠Lucene自带的分词实现中文分词,效果肯定没有网上琳琅的分词器相媲美,只为了示例,用了自带的高亮。页面不好看,将就一下哦。 主要是...原创 2011-06-10 14:14:22 · 305 阅读 · 0 评论