Luence
chenhaiyang_ok
这个作者很懒,什么都没留下…
展开
-
luence教材1
一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数转载 2012-10-02 17:53:21 · 785 阅读 · 0 评论 -
Lucene入门教程03
Lucene教程1 lucene简介1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。2 lucene的工作方式 lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是转载 2012-10-10 15:33:50 · 410 阅读 · 0 评论 -
简单的luence例子
Lucene的使用,简单来说可以划分为两种类型,一是建立索引,二是搜索内容。一、建立索引的五个基础类 Document, Field, IndexWriter, Analyzer, Directory1、Document类:用来描述文档,这里的文档可以指一个HTML页面,一封电子邮件,或者是一个文本文件。一个 Document 对象由多个Field对象组成的。可以把一个Docume转载 2012-10-10 15:46:54 · 340 阅读 · 0 评论 -
小编辑 Lucene 的 Scoring 评分机制
Lucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节,致使用户可以简单地使用 lucene。但个人觉得:如果要根据自己的应用调节评分(或结构排序),十分有必须深入了解 lucene 的评分机制。Lucene scoring 组合使用了 信 息检索的向量空间模型 和 布尔模型 。首先来看下 lucene 的评转载 2012-10-10 16:13:44 · 343 阅读 · 0 评论 -
lucene评分分析2
在IndexSearcher类中有一个管理Lucene得分情况的方法,如下所示:public Explanation explain(Weight weight, int doc) throws IOException { return weight.explain(reader, doc);}返回的这个Explanation的实例解释了Lucene中Document的得分情转载 2012-10-10 16:15:35 · 503 阅读 · 0 评论 -
很好的lucene3.6入门指南
Lucene3.6 入门指南Lucene系列介绍Lucene3.6 入门指南一、 简介 Lucene是什么:Lucene是apache软件基金会jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软转载 2012-10-11 14:41:45 · 832 阅读 · 0 评论 -
lucene中Field类详解
org.apache.lucene.demo.IndexFiles类中,使用递归的方式去索引文件。在构造了一个IndexWriter索引器之后,就可以向索引器中添加Doucument了,执行真正地建立索引的过程。遍历每个目录,因为每个目录中可能还存在目录,进行深度遍历,采用递归技术找到处于叶节点处的文件(普通的具有扩展名的文件,比如my.txt文件),然后调用如下代码中红色部分:static转载 2012-10-11 14:21:29 · 868 阅读 · 0 评论 -
对Lucene PhraseQuery的slop的理解(转载)
这几天看Lucene,看到检索那块,被PhraseQuery折腾了一阵,那本《Lucene In Action》里的代码版本太旧了,也不知是翻译的问题还是我的理解问题,总之在看PhraseQuery的设置slop时费了半天劲,不过,总算是搞明白了,发个帖子来分享一下: 所谓PhraseQuery,就是通过短语来检索,比如我想查“big car”这个短语,那么如果待匹配的document的转载 2012-10-12 11:47:18 · 487 阅读 · 0 评论 -
MultiTermQuery查询、FuzzyQuery查询(重要)
MultiTermQuery查询、FuzzyQuery查询关于MultiTermQuery查询。这里研究FuzzyQuery查询。MultiTermQuery是一个抽象类,继承自它的一种有3个,分别为:FuzzyQuery、WildcardQuery、RegexQuery,其中RegexQuery使用了第三方提供的服务,可以使用正则表达式,如果你对正则表达式很熟悉,可以尝试着使用R转载 2012-10-12 17:32:24 · 4688 阅读 · 0 评论 -
Explanation---lucene中对于评分细节描述的类
一般通过IndexSearch.explain(query,docId)----》weight.explain(reader, doc) 方法得到一个文档的评分的具体信息 。Explanation的信息如下:4.803122 = (MATCH) fieldWeight(keywords:奶粉 in 457), product of: 2.0 = tf(termFreq(keywords转载 2012-10-12 20:19:40 · 1020 阅读 · 0 评论 -
Lucene学习总结之七:Lucene搜索过程解析(3)
2.3、QueryParser解析查询语句生成查询对象代码为:QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT));Query query = parser.parse("+(+app转载 2012-10-12 20:21:56 · 443 阅读 · 0 评论 -
Lucene入门
Lucene入门Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的转载 2012-10-10 14:00:07 · 270 阅读 · 0 评论 -
luence教程0
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是 数据库的一行记录,Field可以看作是数据库的字段。用lucene实 现搜索引擎就像用JDBC实现连接数据库一样简单。Lucene2.0,它与以前广泛应用和介绍的Lucene 1.转载 2012-10-10 11:38:44 · 410 阅读 · 0 评论 -
Lucene 教程2
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目。 其功能非常的强大,api也很简单。总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是 数据库的一行记录,Field可以看作是数据库的字段。用lucene实 现搜索引擎就像用JDBC实现连接数据库一样简单。Lucene2.0,它与以前广泛应用和介绍的Lucene 1.转载 2012-10-09 13:28:58 · 335 阅读 · 0 评论 -
luence入门
、利用Lucene构建搜索引擎的一般过程: 各类文档的字符化——>对字符数据进行分词——>建立索引——>搜索(选择搜索字段、搜索方式,执行搜索)。2、Lucene文件系统说明: %LUCENE_HOME%\contrib\:Lucene扩展包,包括针对多种语言的分词工具、亮亮显示、Ant、xml文件解析等。其他目录无需赘言,清晰明了。3、Lucene主要包结构: |转载 2012-10-10 11:36:22 · 506 阅读 · 0 评论 -
Lucene 索引创建
import java.io.File; import java.util.ArrayList; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apac转载 2012-10-10 15:38:45 · 314 阅读 · 0 评论 -
Lucene 文本搜索
import java.io.File;import java.io.IOException;import java.util.Date;import org.apache.lucene.document.Document;import org.apache.lucene.index.Term;import org.apache.lucene.search.IndexSea转载 2012-10-10 15:40:04 · 317 阅读 · 0 评论 -
luence入门pojo
第一阶段:1.建立普通POJO类package org.yinpeng.test.lucence;public class User { private int id; private String firstName; private String lastName; public User(){ } public User(int id,转载 2012-10-10 15:55:16 · 545 阅读 · 0 评论 -
影响Lucene对文档打分的四种方式
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。如果不进行设定,则Document转载 2012-10-10 11:34:18 · 1008 阅读 · 0 评论 -
luence初级教程1
所需jar包:lucene-core-3.6.1.jar,lucene-test-framework-3.6.1.jar,ant-junit-1.7.1.jar,ant-1.7.1.jar,ant-launcher-1.7.1.jar,junit-4.10.jar,hamcrest-core-1.1.jar########################################原创 2012-10-10 09:35:54 · 531 阅读 · 0 评论 -
从概念理解Lucene的Index(索引)文档模型
Lucene主要有两种文档模型:Document和Field,一个Document可能包含若干个Field。每一个Field有不同的策略:1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文 。2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。3.可选择是否存储(store),将原文直接拷贝 ,不做索引转载 2012-10-10 11:35:19 · 572 阅读 · 0 评论 -
Lucene自定义评分查询
package com.lucene.score; import java.io.IOException; import java.sql.Date; import java.text.SimpleDateFormat; import org.apache.lucene.document.Document; import org.apache.lucene.inde转载 2012-10-10 16:18:07 · 539 阅读 · 0 评论 -
lucene 集中analyser的比较
中文分词可以查看:http://www.open-open.com/74.htm1、StopAnalyzerStopAnalyzer能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能。2、StandardAnalyzerStandardAnalyzer根据空格和符号来完成分词,还可以完成数字、字母、E-mail地址、IP地址以及中文字符的分析处理,还可以支持过滤词表,用来代替转载 2012-10-11 14:18:43 · 825 阅读 · 0 评论 -
Lucene 基础理论
1. 全文检索系统与Lucene简介1.1 什么是全文检索与全文检索系统全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文转载 2012-11-22 21:10:17 · 457 阅读 · 0 评论