lucene
文章平均质量分 62
iteye_14903
这个作者很懒,什么都没留下…
展开
-
lucene分布式搜索sensei的使用及完善
原创文章,转载请注明地址: http://rabbit9898.iteye.com/blog/1130674 Sensei是LinkedIn的一个分布式搜索系统。安装步骤参考:http://linkedin.jira.com/wiki/display/SENSEI/Getting+Started或者 http://rabbit9898.iteye.com/blog/997165 ...2011-07-22 14:32:16 · 168 阅读 · 0 评论 -
[转载] lucene使用与优化
源:http://www.cnblogs.com/bysshijiajia/archive/2008/01/24/1051401.html 1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做...原创 2010-12-03 10:14:45 · 80 阅读 · 0 评论 -
lucene基本概念
一、lucene索引的建立 1.索引文件.fdt文件:主要保存数据源数据,存储的field的值仅为Document中具有的Store.YES属性的field.fdx文件:记录当前Document在.fdt文件中的位置,以便后面读取时方便segments文件:通常,在一个完整的索引中,有且只有一个segments文件,该文件没有后缀,它记录了当前索引中所有的segment的信...原创 2010-12-03 15:51:38 · 113 阅读 · 0 评论 -
基于sensei+lucene的分布式搜索终于上线了-2012-12-08
基于sensei+lucene的分布式搜索终于上线了 架构采用:http://rabbit9898.iteye.com/blog/1130674 历时多时,终于今天上线了。原创 2011-12-08 13:26:43 · 116 阅读 · 0 评论 -
lucene 3.0 分词例子 转载
源:http://hxraid.iteye.com/blog/634577 首先我们用下面的代码来看看打印标准分词器的运行结果 (在2.9下也可以运行) class StandardTest{ public static void main(String[] args) throws IOException{ //输入流 StringReader s=n...原创 2010-12-27 17:30:00 · 96 阅读 · 0 评论 -
Lucene MoreLikeThisQuery 例子
要做一个跟文章标题相关的新闻,本来想简单做一下,就是把标题用分词处理一下,去除停用词,做个布尔查询,朋友建议lucene有一个 MoreLikeThisQuery,试了一下功能,觉得还可以,贴上示例代码 (MoreLikeThisQuery 在contrib 下的Queryies): pom文件: <project xmlns="http://maven.apache....2011-01-04 13:42:58 · 608 阅读 · 0 评论 -
Lucene MoreLikeThisQuery 例子 备注
1。 编码问题: MoreLikeThisQuery中的 BooleanQuery bq= (BooleanQuery) mlt.like(new ByteArrayInputStream(likeText.getBytes())); likeText.getBytes() 这个出的问题,没有指定编码,会自动读取系统默认编码。在linux下运行java程序,它读取来的系统默认字符集...原创 2011-01-06 11:22:22 · 714 阅读 · 0 评论 -
各种字符串Hash函数比较
Java自带的字符串hash函数: public int hashCode() { int h = hash; if (h == 0) { int off = offset; char val[] = value; int len = count; for (int i = 0; i < len; i++...原创 2011-02-12 14:54:36 · 96 阅读 · 0 评论 -
转载:Lucene查询语法详解
英文原文地址:http://lucene.apache.org/java/2_4_0/queryparsersyntax.html源:http://www.it118.org/Specials/01b75525-883b-4221-b393-1d63f49f2a2c/daf90409-3573-4be9-81e2-dc4d559e79ec.htm Lucene提供了...原创 2011-04-02 10:33:07 · 89 阅读 · 0 评论 -
转载: Apache Zookeeper入门1
源: http://www.javabloger.com/article/apache-zookeeper-hadoop.html 口水:Zookeeper是我目前接触过Apache开源系统中比较复杂的一个产品,要搞清楚这个东东里面的运作关系还真不是一时半会可以搞定的事,本人目前只略知皮毛之术。ZooKeeper 是什么? ZooKeeper 顾名思义 动物园管理员,他是拿...原创 2011-04-06 14:36:55 · 92 阅读 · 0 评论 -
[转载] 几种常见的基于Lucene的开源搜索解决方案对比
源:http://blog.fulin.org/2010/11/search_solutions_compare.html 一 直接使用 Lucene ( http://lucene.apache.org )说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作 优点:成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持...原创 2010-12-02 16:07:35 · 153 阅读 · 0 评论 -
lucene中的Token, TokenStream, Tokenizer, Analyzer
转载:Token: 如果一个字段被token化,这表示它经过了一个可将内容转化为tokens串的分析程序。 Token是建立索引的基本单位,表示每个被编入索引的字符。 在token化的过程中,分析程序会在使用任何转换逻辑(例如去掉 "a” 或 "the" 这类停用词,执行词干搜寻,将无大小写区分的所有文字转换成小写等)的同时,抽取应被编入索引的文本内容。由于和字段相关的内容减少到只剩核心元素,...原创 2010-11-22 10:41:38 · 223 阅读 · 0 评论 -
[转载] sensei分布式实时搜索系统源码解析(一) senseiServer的启动及若干概念
看来自己很懒,发现前同事的sensei 研究了转载:http://johnnychenjun.blog.163.com/blog/static/137493406201161163651879/ 一、源码结构 首先,先从github将 sensei源码 取下。从整体代码结构上来看主要分为如下几类:1. 提供多种index的提供数据的方式,主要在dataprovider下的几个包...原创 2011-07-22 14:55:53 · 166 阅读 · 0 评论 -
[转载] sensei分布式实时搜索系统源码解析(二) 分布式Search的流程
看来自己很懒,发现前同事的sensei 研究了转载: http://johnnychenjun.blog.163.com/blog/static/1374934062011621111441102/ 接上节的SenseiServer相关的概念,想必对sensei里面从Server启动到各种server/client的概念有所了解了。本次间隔了一周多来记录一下sensei做分布式sear...原创 2011-07-22 14:57:41 · 150 阅读 · 0 评论 -
查询高亮 lucene 的 Highlighter
pom.xml中[code="xml"] org.apache.lucene lucene-core 2.4.1 org.apache.lucene lucene-highlighter 2.4.1 [/code]其中lucene-high...2010-10-19 14:48:35 · 94 阅读 · 0 评论 -
bobo-browse 的分组统计(Faceted Search)
基于lucene的bobo-browse 的分组统计(Facet Search)2010-10-25 转载注明出处下载编译按照步骤:http://code.google.com/p/bobo-browse/wiki/GettingStartedgit安装参照http://rabbit9898.iteye.com/admin/blogs/789809...2010-10-25 16:43:29 · 304 阅读 · 0 评论 -
lucene 2010 大会资料 Lucene Revolution 2010
lucene 2010 大会资料资料下载http://www.lucidimagination.com/events/revolution2010原创 2010-10-27 15:41:56 · 70 阅读 · 0 评论 -
lucene 排序 (Sort SortField 构造函数)
注意: 在lucene2.9中,排序的字段域必须indexed但是不能tokenized。因为虽然tokenized后虽然可以排序,但是有可能不是你想要的结果,因为tokenized可能会去除停用词或者大小写转换等。(in Lucene 2.9 and when reading java doc for the Sort class I noticed it says "The f...原创 2010-11-09 13:58:41 · 383 阅读 · 0 评论 -
lucene score explain 评分解释说明
通过Searcher.explain(Query query, int doc)方法可以查看某个文档的得分的具体构成。 [b]在Lucene中score简单说是由 tf * idf * boost * lengthNorm计算得出的。 [/b][i](复杂的请看相关文档)。[/i]tf:是查询的词在文档中出现的次数的平方根 idf:表示反转文档频率,观察了一下所有的文档都一样,...原创 2010-11-16 17:29:32 · 291 阅读 · 0 评论 -
当前几个主要的Lucene中文分词器的比较
1. 基本介绍:paoding :Lucene中文分词“庖丁解牛” Paoding Analysispaoding讨论区:http://www.iteye.com/topic/110148imdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切...原创 2010-11-17 12:35:53 · 73 阅读 · 0 评论 -
Lucene3.0的几种分词系统
1、 StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、 StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替StopAnalyzer能够实现的过滤功能。3、 SimpleAnal...原创 2010-11-17 17:25:00 · 292 阅读 · 0 评论 -
转载:几种常见的基于Lucene的开源搜索解决方案对比
一 直接使用 Lucene ( http://lucene.apache.org )说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作 优点:成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞大而活跃的开发社区,大量的开发人员。它只是一个类库,有足够的定制和优化空间:经过简单定制,就可以满足绝大部分常见的需...原创 2011-04-06 14:38:21 · 166 阅读 · 0 评论