lucene
文章平均质量分 92
鹅
这个作者很懒,什么都没留下…
展开
-
实战 Lucene,第 1 部分: 初识 Lucene
Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够转载 2014-03-12 17:10:41 · 462 阅读 · 0 评论 -
Lucene打分规则与Similarity模块详解
搜索排序结果的控制 Lucnen作为搜索引擎中,应用最为广泛和成功的开源框架,它对搜索结果的排序,有一套十分完整的机制来控制;但我们控制搜索结果排序的目的永远只有一个,那就是信息过滤,让用户快速,准确的找到其想要的结果,丰富用户体验。以前看过一个牛人的博客,总结了4个地方,可对Lucene检索结果的排序进行控制,现在已经记不住。我自己简单整理了下面几个,若有疏漏,欢迎补充:1转载 2015-03-05 14:18:56 · 1019 阅读 · 0 评论 -
FieldCache在lucene中使用的代码解析,使用场景个人分析
http://moshalanye.iteye.com/blog/281379这篇文章的由来是在寻求lucene的搜索的性能提高的过程中成形的, 感谢所有所以给于我帮助的朋友,在baseworld的提示下,我仔细翻阅了代码, 于是想把自己的一些收获和想法写出来,希望对在学习的人提供帮助, 更希望有人不吝啬手中的砖头,指正我的想法 FieldCache为Fie转载 2014-06-17 19:02:48 · 514 阅读 · 0 评论 -
Lucene中的基本概念
本文定义了Lucene(版本1.3)用到的索引文件的格式。Jakarta Lucene是用Java写成的,同时有很多团体正在默默的用其他的程序语言来改写它。如果这些新的版本想和Jakarta Lucene兼容,就需要一个与具体语言无关的Lucene索引文件格式。本文正是试图提供一个完整的与语言无关的Jakarta Lucene 1.3索引文件格式的规格定义。随着Lucene不断发展,本文也转载 2014-06-16 19:37:14 · 420 阅读 · 0 评论 -
Lucene3.0结果排序原理+操作+示例
Lucene3.0之结果排序(原理篇)传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。1、 基本排序原理① 向量空间模型Gerald Salton 等在 30 多年前提出的"向量空间模型" (Vector Space Model,VSM)[Salton and Le转载 2014-05-20 19:28:12 · 576 阅读 · 0 评论 -
全文检索的几个重要概念: Analyzer, tokenizer, token filter, char filter
Analyzer: The index analysis module acts as a configurable registry of Analyzers that can be used in order to both break indexed (analyzed) fields when a document is indexed and process query stri转载 2014-04-10 13:54:37 · 886 阅读 · 0 评论 -
Lucene分词实现---Analyzer、TokenStream(Token、Tokenizer、Tokenfilter)
一 分清概念: 1 TokenStream是用来走访Token的iterator(迭代器) , Tokenizer继承自TokenStream,其输入为Reader 。 TokenFilter继承自TokenStream,其作用是用来完成对TokenStream的过滤操作,譬如 去StopWords,将Token变为小转载 2014-04-10 15:17:18 · 2114 阅读 · 0 评论 -
JFLex用户手册中文版
JFLEX词法分析安装与配置1. 下载jflex-1.4.3.zip,解压缩到本地目录(c:/jflex)。2. 找到jflex\bin\jflex.bat文件,配置JAVA HOME和JFLEX HOME3. 把x:\jflex\bin写入系统环境变量path中运行可视化方式直接运行jflex\bin\jflex.bat文件,打开可视化界转载 2014-05-09 20:08:59 · 8049 阅读 · 0 评论 -
Lucene 的 Scoring 评分机制
Lucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节,致使用户可以简单地使用 lucene。但个人觉得:如果要根据自己的应用调节评分(或结构排序),十分有必须深入了解 lucene 的评分机制。Lucene scoring 组合使用了 信 息检索的向量空间模型 和 布尔模型 。首先来看下 lucene 的评转载 2014-04-09 19:55:40 · 546 阅读 · 0 评论 -
Luke:Lucene索引查看工具
Luke介绍Luke是一个方便的索引查看和诊断工具,可以访问Lucene构建的索引文件,显示和修改某些索引内容。能提供:通过document编号或term浏览索引查看document内容,可复制到剪贴板对频率最高的term的索引字段提供排名后的浏览执行搜索语句并浏览搜索结果分析搜索结果从索引中选择性删除文件重建原始文档字段,对其进行编辑,然后重新插入的索引优化索引可以打开hadoo转载 2014-04-22 18:50:35 · 6547 阅读 · 0 评论 -
利用bobo-browse 实现lucene的分组统计功能
bobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。可以从http://code.google.com/p/bobo-browse/上下载和查看相关文档。下面介绍如何使用:第一步:设置相关配置文件 bobo-browse 使用了spring,这里主要配置bobo.spring和field.xml两个文件。可以从他的源码例转载 2014-04-18 15:38:31 · 905 阅读 · 0 评论 -
Lucene StandardAnalyzer的代码分析2
测试代码public static void main(String[] args){ String str = new String("我爱武大但我更爱中国"); Analyzer analyzer = newStandardAnalyzer(Version.LUCENE_CURRENT); TokenStream ts = analyzer转载 2014-04-18 16:44:12 · 1793 阅读 · 0 评论 -
LinkedIn公司实现的实时搜索引擎Zoie
一、总体架构Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:http://snaprojects.jira.com/wiki/display/ZOIE/OverviewZoie is a realtime indexing and search system, and as such needs to have relatively c转载 2014-04-18 15:37:55 · 570 阅读 · 0 评论 -
使用 Apache Lucene 和 Solr 进行位置感知搜索
通过合并非结构化文本和空间数据改进搜索应用程序不管是通过支持 GPS 的智能手机查找最近的咖啡馆,还是通过社交站点查找附近的朋友,或是查看特定城市中运输某种商品的所有货车,越来越多的人和企业都使用位置感知的搜索服务。创建位置感知搜索服务通常属于昂贵的专用解决方案的一部分,并且一般由地理空间专家完成。不过,很流行的开源搜索库 Apache Lucene 和强大的 Lucene 搜索服务器转载 2014-03-18 16:55:10 · 678 阅读 · 0 评论 -
实时检索系统Zoie实现分析
实时检索的核心原理通常的检索系统中,建索引和查询是分开的,即建索引是离线的,新的索引会以一定频率(比如每隔5分钟)供查询端使用。对于一些站内检索来说,这种延迟性使得:不需要建索引的速度足够快(只要能跟的上提交频率就行),查询的效果不必完全精确。而要取得实时检索效果,典型的思路是:建索引和查询是在一个进程内,这样每一次的添加索引都会被下一次的查询用到,但这里面的细节还是需要好好琢磨解决的,下面就转载 2014-03-19 16:51:47 · 500 阅读 · 0 评论 -
Lucene 工作原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,转载 2014-03-14 17:51:12 · 451 阅读 · 0 评论 -
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 在线演示:http://ansj.sdapp.cn/demo/seg.jsp 官网地址:http://www.ansj.org/ Github地址:https://github.com/ansjsun/ansj_seg转载 2015-09-08 09:28:22 · 694 阅读 · 0 评论