Lucene
lhycarter
这个作者很懒,什么都没留下…
展开
-
Lucene中文分词组件 JE-Analysis 1.4.0
本站申明: 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ ...2007-09-27 17:45:42 · 161 阅读 · 0 评论 -
lucene学习笔记 2
Boosting特性 luncene对Document和Field提供了一个可以设置的Boosting参数, 这个参数的用处是告诉lucene, 某些记录更重要,在搜索的时候优先考虑他们 比如在搜索的时候你可能觉得几个门户的网页要比垃圾小站更优先考虑 lucene默认的boosting参数是1.0, 如果你觉得这个field重要,你可以把boosting设置为1.5, 1.2....等, 对D...2007-09-27 18:04:38 · 109 阅读 · 0 评论 -
lucene学习笔记 1
Doug Cutting 于2000年开始的项目 2001年9月后加入apache, Lucene是Doug Cutting的middle name 。 目前Lucene已经是apache的top level的项目, 已经不在jakarta下面, 同时也有了python,perl,c++,.net, Ruby(进行中)多个版本 Lucene 主要的两个任务:indexing and searchi...2007-09-27 18:04:11 · 95 阅读 · 0 评论 -
使用Lucene进行全文检索---进行搜索
无论是建立索引还是分析内容,都是为了用户的搜索服务. 在Lucene中,如果需要使用搜索,需要使用Searcher类,这是一个抽象类,它有2个子类:IndexSearcher和MultiSearcher. IndexSearcher是对一个索引进行搜索,如果你需要对多个索引进行搜索,可以使用MultiSearcher.下面的内容只介绍了IndexSearcher. 搜索涉及到几个...2007-09-27 18:03:18 · 126 阅读 · 0 评论 -
使用Lucene进行全文检索---得到有效的内容
在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如Html,PDF,Word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如Html的内容,一般我们不需要对Html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从Html内容中解析出我们所需要的内容.对于PDF,Word文档,也是类似的要求. 总之,我们只需要从内容中提取出我们需要的文本来建立...2007-09-27 18:02:03 · 97 阅读 · 0 评论 -
lucene-2.0.0的基本应用
首先肯定是建立索引了啊 public void creatIndex() { File indexDir = new File(getPathIndex()); try { List<Article> listArticle = getArticleDao().search(null, null,null, null, null, null, null, null, new Bo...2007-09-27 18:00:22 · 96 阅读 · 0 评论 -
Lucene-2.0学习文档
Lucene-2.0学习文档 Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。其功能非常的强大,api也很简单。总得来说用Lucene来进行建立和搜索和操作数据库是差不多的,Document可以看作是数据库的一行记录,Field可以看作是数据库的字段。用lucene实现搜索引擎就像用JDBC实现连接数据库一样简单。 值得一提的是:2006年6月1号Lucene2.0发布...2007-09-27 17:58:55 · 80 阅读 · 0 评论 -
lucene搜索引擎技术的分析与整理
4. Lucene文档结构 Lucene中最基础的概念是索引(index),文档(document.,域(field)和项(term)。 索引包含了一个文档的序列。 · 文档是一些域的序列。 · 域是一些项的序列。 · 项就是一个字串。 存在于不同域中的同一个字串被认为是不同的项。因此项实际是用一对字串表示的,第一个字串是域名,第二个是域中的字串。 4.1. Lucene概念详细介...2007-09-27 17:56:48 · 77 阅读 · 0 评论 -
实战 Lucene
文首先介绍了Lucene的一些基本概念,然后开发了一个应用程序演示了利用Lucene建立索引并在该索引上进行搜索的过程。 Lucene 简介 Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。 目...2007-09-27 17:56:06 · 74 阅读 · 0 评论 -
Lucene 中文分词的 highlight 显示
1 、问题的来源 增加分词以后结果的准确度提高了,但是用户反映返回结果的速度很慢。原因是, Lucene 做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作。这样降低了性能。 2 、解决方法 在 Lucene1.4.3 版本中的一个新功能可以解决这个问题。 Term Vector 现在支持保存 Token.getPositionIncrement() 和 Token.st...2007-09-27 17:55:02 · 358 阅读 · 0 评论 -
使用Lucene进行全文检索---处理索引
http://www.jscud.com 转载请注明来源/作者 关键字:lucene,html parser,全文检索,IndexReader,Document,Field,IndexWriter,Term,HTMLPAGE Lucene是一个全文检索的引擎,目前有Java和.Net 等几个版本.Java版本的网址是http://lucene.apache.org.相关的一个项目是车东的Web...2007-09-27 17:53:44 · 84 阅读 · 0 评论 -
深入 Lucene 索引机制
架构概览 图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档,HTML 解析器会做一些预处理的工作,比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容,接着 Lucene 的分词器(Analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着 Lucene 的分词器把这些信息写到...2007-09-27 17:52:27 · 46 阅读 · 0 评论 -
几个免费的中文分词模块
一、什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一...2007-09-27 17:50:25 · 397 阅读 · 0 评论 -
Lucene站点推荐
地址:http://www.lucene.com 简介:Ramblings about Lucene, Nutch, and other stuff. 摘要: I'm a primary developer of the Lucene and Nutch open source search projects. Lot's of folks think good open-so...2007-09-27 17:48:54 · 121 阅读 · 0 评论 -
lucene学习笔记 3
搜索 Lucene搜索的api的类主要有4个 IndexSearcher ,Query(包括子类),QueryParser,Hits IndexSearcher是搜索的入口,他的search方法提供了搜索功能 Query有很多子类, 各种不同的子类代表了不同的查询条件,下文详述 QueryParser是一个非常通用的帮助类,他的作用是把用户输入的文本转换为内置的Query对象(大多数web搜索引...2007-09-27 18:05:16 · 72 阅读 · 0 评论