Lucene
文章平均质量分 85
mxdxm8899
这个作者很懒,什么都没留下…
展开
-
hadoop
Hadoop的概要介绍Hadoop,是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现的,具有良好的可移植性。 Hadoop的发展历史 Hadoop是Doug C...原创 2010-12-31 17:24:11 · 185 阅读 · 0 评论 -
Solr高效利用:Solr实现SQL的查询与统计
Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala,只要熟悉SQL,就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。 下面,我们设计一个表,通过该表中的数据,来将SQL查询与统计的语句,使用Solr查询的方式来与SQL查询对应。这个翻译的过程,是非常有趣的,你可以看到Solr一些很不错的功...原创 2015-03-11 10:51:19 · 505 阅读 · 0 评论 -
(转)Lucene+SSH
这篇博客写的不错,支持一下,顶。http://shuaigg-babysky.iteye.com/blog/414477#comments原创 2014-07-01 08:26:14 · 138 阅读 · 0 评论 -
lucene基本
Lucene索引中有几个最基础的概念,索引(index),文档(document),域(field),和项(或者译为语词term) 字串4 其中Index为Document的序列 字串6 Document为Field的序列 字串8 Field为Term的序列 字串7 Term就是一个子串. 字串7 存在于不同的Field中的同一个子串被认为是不同的Term.因此Term实...原创 2011-04-07 11:03:02 · 113 阅读 · 0 评论 -
MoreLikeThis实现检索相似文档
输入“related:doc_id”返回索引库中的相关文档public static void main(String[] args) throws IOException { FSDirectory directory = FSDirectory.open(new File("D:\\DATAMANAGER\\INDEX\\SYS_3000")); IndexReader r = Index...原创 2011-04-07 11:01:50 · 133 阅读 · 0 评论 -
获取一个索引文件频率最高的Term
前段时间同事也开始对搜索感兴趣,他看到luke工具界面上会显示Term的频率数,提出通过索引用户的搜索日志中的检索关键字,我们是否可以利用这个Field字段中Term频率高低来说明其是否代表热点关键字。 想想觉得也是有一点在理,特别是对用户没有任何可分析性的情况下。但这就引出了一个问题:如何获取整个索引文件里频率最高的哪几个Term? 翻了几次API,网上也搜...原创 2011-04-07 11:00:22 · 118 阅读 · 0 评论 -
TermEnum
使用Lucene的API遍历Lucene索引一般使用Lucene的人都很少需要对索引进行遍历之类的操作,因为使用Lucene一般都不会对其索引文件产生太大兴趣,只注重将Lucene作为一个全文检索工具来使用而已,并不在意其内部实现和结构。但是很多学习Lucene的朋友都希望可以看见完整的Lucene索引内容,至少包含索引词、索引词出现的文档、索引词在文档中的位置(这里指的位置并不是词在原文中的位置...原创 2011-04-07 10:53:34 · 87 阅读 · 0 评论 -
lucene的分组查询
通过lucene搜索去除相同结果。在网上找了很久到没有答案,到apache看了文档,http://lucene.apache.org/java/2_4_1/queryparsersyntax.html搜索语法之中是没有类似group by的。只好换个思路,想到了过滤器。结果发现了org.apache.lucene.search.DuplicateFilter这个类。对此类的解释如下: ...原创 2011-04-07 10:51:52 · 112 阅读 · 0 评论 -
Lucene中的自定义排序功能
Lucene中的自定义排序功能和Java集合中的自定义排序的实现方法差不多,都要实现一下比较接口. 在Java中只要实现Comparable接口就可以了.但是在Lucene中要实现SortComparatorSource接口和ScoreDocComparator接口.在了解具体实现方法之前先来看看这两个接口的定义吧. SortComparatorSource接口的功能是返回一个用来排序ScoreD...原创 2011-04-07 10:47:15 · 103 阅读 · 0 评论 -
lucene中的词频
lucene in action作为action系列,确实坚持了其实用性的特色。全书花了很大的篇幅来讲解查询的解析,结果的优化和lucene应用上。很适合要做全文检索的人学习使用。但是lucen的功能决不仅仅在做搜索引擎上。如果不是最近看到一篇介绍用lucene作词频,文档统计的文章的话,我可能到现在还在为寻找一种用于专业研究的工具而苦恼。其实lucene可以很轻松地实现信息检索课中提到的要求,例...原创 2011-04-07 10:46:44 · 395 阅读 · 0 评论 -
lucene介绍
2009 年 9 月 14 日本文将探讨 Apache Lucene —— 性能卓越、功能全面的文本搜索引擎库。我们将学习 Lucene 架构及其核心 API。学习如何使用 Lucene 进行跨平台全文本搜索、建立索引、显示结果,以及如何扩展搜索。简介Lucene 是一个开源、高度可扩展的搜索引擎库,可以从 Apache Software Foundation 获取。您可以将 Lu...原创 2011-04-07 10:28:56 · 89 阅读 · 0 评论 -
lucene索引文档
用Lucene索引文档接下来我将一步一步的来演示如何利用 Lucene 为你的文档创建索引。只要你能将要索引的文件转化成文本格式,Lucene 就能为你的文档建立索引。比如,如果你想为 HTML 文档或者 PDF 文档建立索引,那么首先你就需要从这些文档中提取出文本信息,然后把文本信息交给 Lucene 建立索引。我们接下来的例子用来演示如何利用 Lucene 为后缀名为 txt 的文件建立索...原创 2011-03-02 13:17:15 · 102 阅读 · 0 评论 -
打分公式
文档的分值代表了该文档在特定查询词下对应的相关性高低,他关联着信息检索向量空间模型中的向量夹角的接近度。一个文档越与查询词相关,得分越高。分值计算公式如下:score(q,d) = coord(q,d) · queryNorm(q) · ∑ ( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) ) ...原创 2011-05-21 16:20:28 · 315 阅读 · 0 评论 -
queryparser的问题
很多人在使用lucene时会使用其提供的queryparser分析query。不过,lucene的queryparser从一开始到现在都没有充分考虑中文等语言的特点,使得查询中文会出现让人不可理解的查不到结果的情况。这个bug就是LUCENE-2458。这个问题简单说来就是,对于一个连续的中文query,queryparser将Analyzer返回的Term序列构成了PhraseQuery...原创 2011-05-08 17:46:34 · 149 阅读 · 0 评论 -
利用solrj操作solr的API
使用SolrJ操作Solr会比利用httpClient来操作Solr要简单。SolrJ是封装了httpClient方法,来操作solr的API的。SolrJ底层还是通过使用httpClient中的方法来完成Solr的操作。1、 首先,你需要添加如下jar包其中apache-solr-solrj-3.4.0.jar、slf4j-api-1.6.1.jar可以在下载的apache-so...原创 2015-03-11 11:00:01 · 588 阅读 · 0 评论