lucene
文章平均质量分 50
liuxinglanyue
这个作者很懒,什么都没留下…
展开
-
从lucene的文件结构看它的性能
Lucene是一个apache项目,完全使用java语言编写(废话,谁都知道apache主要是做java项目的,不过,已经有人对Lucene进行了迁移,比如CLucene),它提供了一个基本的索引文档后进行搜索的功能。目前版本是2.0,具体信息可以直接看http://lucene.apache.org/官方网站。同时,http://www.lucene.com.cn/about.htm提供了一...原创 2010-12-03 20:46:05 · 97 阅读 · 0 评论 -
lucene3 建立索引文件例子
import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Date;import org.apache.luc...原创 2010-11-16 21:50:08 · 88 阅读 · 0 评论 -
lucene 3.0学习笔记(2)-使用索引查询(转)
上一篇中我们已经建好了索引,下面该使用索引来做正事了。 这是一段实施基本搜索功能的代码示例: Java代码 Directory dir = FSDirectory.open(new File("index"))); IndexSearcher searcher = new IndexSearcher(dir, true); Query q = new TermQue...原创 2010-11-16 21:49:25 · 110 阅读 · 0 评论 -
lucene 3.0 学习笔记(1)— 建立索引(转)
正在学习lucene,下载的新版本是3.0的,这里把学习中整理的笔记,放在blog中做为备份。 使用lucene做为搜索引擎,主要做的2件事就是:1、建立索引;2、利用索引查询。 即lucene先将要搜索的内容,转化成一个个单词,然后对单词及其与内容的关系建索引;查询是根据你输入的内容,在索引中找到符合条件单词,并进而找到对应的内容。 这里先从创建索引开始,下面是一段代码示例: Java代...原创 2010-11-16 21:48:31 · 108 阅读 · 0 评论 -
Lucene Payload 的研究与应用(转)
Lucene 是最初是由 Douglass R. Cutting 博士发布在自己主页上的一个 Java 全文信息检索工具包,后来成为 Apache Jakarta 家族中的一个开源项目,目前已经成为 Apache 基金会的顶级项目。索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成方便查询的索引文件的过程。 Lucene 采用的是一种被称为倒排索引 (Inverted Index)...原创 2010-11-15 18:02:30 · 171 阅读 · 0 评论 -
使用 Apache Lucene 搜索文本(转)
简介Lucene 是一个开源、高度可扩展的搜索引擎库,可以从 Apache Software Foundation 获取。您可以将 Lucene 用于商业和开源应用程序。Lucene 强大的 API 主要关注文本索引和搜索。它可以用于为各种应用程序构建搜索功能,比如电子邮件客户端、邮件列表、Web 搜索、数据库搜索等等。Wikipedia、TheServerSide、jGuru 和 Lin...原创 2010-11-15 17:55:27 · 81 阅读 · 0 评论 -
一个例子学懂搜索引擎(lucene)(转)
其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene的使用核心方法,包括分词、索引、搜索不同的目录、搜索不同的域,希望大家通过这个实例,对lucene和搜索引擎能有比较全面的认识! ...原创 2010-11-15 17:49:08 · 144 阅读 · 0 评论 -
用 Lucene 加速 Web 搜索应用程序的开发(转)
在本篇文章中,你会学习到如何利用 Lucene 实现高级搜索功能以及如何利用 Lucene 来创建 Web 搜索应用程序。通过这些学习,你就可以利用 Lucene 来创建自己的搜索应用程序。架构概览通常一个 Web 搜索引擎的架构分为前端和后端两部分,就像图一中所示。在前端流程中,用户在搜索引擎提供的界面中输入要搜索的关键词,这里提到的用户界面一般是一个带有输入框的 Web 页面,然后...原创 2010-11-15 17:47:51 · 95 阅读 · 0 评论 -
Lucene 全功能
package com.diyi.util;import java.io.File;import java.io.IOException;import java.io.StringReader;import java.util.ArrayList;import java.util.List;import org.apache.lucene.analysis.Ana...原创 2010-11-14 20:46:03 · 75 阅读 · 0 评论 -
ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注
ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注 http://hi.baidu.com/hupoo/blog/item/a8898044b434514c500ffee3.html2006-11-09 11:01ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注风暴红QxRed @ 2006-04-20 20:38中科院分词系统概述这几天看完了中科院分词...原创 2010-11-13 09:08:08 · 232 阅读 · 0 评论 -
lucene3 搜索例子
import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Doc...原创 2010-11-16 21:50:57 · 92 阅读 · 0 评论 -
【转】lucene3.0入门实例
转自:http://cumtfirefly.iteye.com/blog/543664lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。 本人从头开始学习lucene,现在用的是《lucene in action中文版》,结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开...原创 2010-11-16 21:52:51 · 78 阅读 · 0 评论 -
基于LUCENE实现自己的推荐引擎
采用基于数据挖掘的算法来实现推荐引擎是各大电子商务网站、SNS社区最为常用的方法,推荐引擎常用的Content-Based推荐算法及协同过滤算法(Item-Based、User-based在电子商务推荐系统入门v2.0、电子商务推荐系统入门基础中已经有所阐述。但从实际应用来看,对于大部分中小型企业来说,要在电子商务系统完整采用以上算法有很大的难度。 1、常用推荐引擎算法问题 1)、相对成熟、完整、...原创 2010-11-30 22:06:37 · 66 阅读 · 0 评论 -
Lucene 索引拆分大小库设计
原文: http://tangfl.yo2.cn/Lucene 索引拆分大小库设计TangFulin <tangfulin#gmail.com>一. Index Writer:1. IndexRebuilder 只重建一个索引,建成后替换 IndexUpdater 的大库,替换的同时清空 IndexUpdater 的小库2. IndexUpdater 维护 2 个索...原创 2010-11-30 16:16:40 · 124 阅读 · 0 评论 -
开源中文分词算法
一,IK Analyzer(暗黑的“不朽之王Immortal King”) :IK Analyzer 是更多的考虑了互联网用户在产品及名址信息搜索这块的应用,IK特别适用于搜索商家,产品,名址,如商品交易,美食,娱乐,电子地图等,因为它是基于这样 的应用诞生的。IK在一开始的设计的时候,它有一个隐形的目标,是对数词,量词,专有名词的增强处理,这是由于它的基于web gis搜索的需求定位决定的。在I...原创 2010-11-20 21:54:39 · 311 阅读 · 0 评论 -
Lucene 及 Lucene.net 国内外的一些学习资源汇总(转)
目前互联网上关于Lucene 及 Lucene.net 的文章很多,看了一些,感觉绝大部分还是偏向于应用,真正深入探讨其核心算法的文章不是太多,最近打算深入研究一下Lucene.net,把一些关键技术点的核心算法搞清楚。在开始做这个工作之前,先对目前互联网上可以利用的资源做个汇总,算是抛砖引玉吧,还望网友们多来补充,大家共同学习! lucene 官方网站, Luncene.net 官方网站...原创 2010-11-19 20:01:08 · 97 阅读 · 0 评论 -
lucene开发中有关读取pdf,html,word,rtf,txt,powerpoint,excel等文档的操作(转)
关于这七种文档,我相信应该是最常用的文档了在以下的介绍中会提到POI,现介绍下POI吧poi处理WORD,EXCEL比较好:http://jakarta.apache.org/poi/poi处理至少需要如下几个JAR包 PDFbox处理PDF比较好:http://pdfbox.apache.org/download.html 下面一一介绍了第一和第二是只支持03...原创 2010-11-19 14:07:47 · 155 阅读 · 0 评论 -
深入 Lucene 索引机制(转)
Lucene 是一个基于 Java 的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene 目前是著名的 Apache Jakarta 家族中的一个开源项目,下面我们即将学习 Lucene 的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用 Lucene 来索引文档,接着讨论如何提高索引的性能。最后我们来分析 Lucene 的索引文件结构。需要记住...原创 2010-11-18 10:18:24 · 78 阅读 · 0 评论 -
Lucene 3.0.2 代码 分析(转)
持续更新Document 和 FieldIndexWriterIndexReaderLucenen中的倒排实现IndexSearcherAnalyzerSort FilterLucene中的Ranking算法以及改进1. Document 和 Field Document和Field在索引创建的过程中必不可少。而Document和Field...原创 2010-11-16 22:26:07 · 140 阅读 · 0 评论 -
lucene3.0 分页显示与高亮显示(转)
分页类 package com.cee.com;import java.util.List;//分页类public class PageBean { private List list; // 要返回的某一页的记录列表 private int allRow; // 总记录数 private int totalPage; // 总页数 private ...原创 2010-11-16 22:07:39 · 78 阅读 · 0 评论 -
中文搜索引擎-Lucene3.0+IK Analyzer3.2相关jar包
bcmail-jdk14-132.jar bcprov-jdk14-132.jar checkstyle-all-4.2.jar commons-codec-1.3.jar 通用包 commons-httpclient-3.1.jar 网络爬虫 commons-logging.jar 日志 dom4j-1.6.1.jar xml的底层 FontBox-0.1.0-dev.jar p...原创 2010-11-16 22:04:22 · 291 阅读 · 0 评论 -
几个免费的中文分词模块
几个免费的中文分词模块一、什么是中文分词众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是...原创 2010-11-13 09:07:14 · 159 阅读 · 0 评论 -
不选择使用Lucene的6大原因
Lucene是开放源代码的全文搜索引擎工具包,凭借着其强劲的搜索功能和简单易用的实现,在国内已经很普及,甚至一度出现了言搜索必称Lucene的盛景。上个月Lucene的开发团队发布了 Java Lucene 2.3.1 ,相信很多朋友们都用上了。在国内对Lucene的介绍可以分为3块儿:第一类是:以车东 的Lucene:基于Java的全文检索引擎简介 为代表的基础入门介绍;第二类是Luce...原创 2010-11-13 09:06:09 · 105 阅读 · 0 评论 -
关于Lucene的讨论
分类为[lucene]的文章Lucene如何实现分页,如何显示从1到10,或者从11到20的结果?如何写Lucene的分析器?Lucene下如何更新一个或一组已经索引的文档?Lucene下如果不优化索引,删除的文档什么时候真的能被删除?Lucene下如果打开IndexWriter,优化索引,然后关闭IndexWriter,会发生什么?...原创 2011-01-01 10:20:21 · 89 阅读 · 0 评论 -
转:基于lucene实现自己的推荐引擎
采用基于数据挖掘的算法来实现推荐引擎是各大电子商务网站、SNS社区最为常用的方法,推荐引擎常用Content-Based 推荐算法及协同过滤算法(Item-Based 、User-based)。但从实际应用来看,对于大部分中小型企业来说,要在电子商务系统完整采用以上算法还有很大的难度。1、常用推荐引擎算法问题1)、相对成熟、完整、现成的开源解决方案较少粗略分来,目前与数据挖掘及推荐引擎...原创 2010-12-17 17:05:41 · 126 阅读 · 0 评论 -
加速 lucene 的搜索速度 ImproveSearchingSpeed(二)
本文 为简单翻译,原文在:http://wiki.apache.org/lucene-java/ImproveSearchingSpeed转自:http://blog.fulin.org/2009/06/improvesearchingspeed.html* Be sure you really need to speed things up.Many of the ideas h...原创 2010-12-17 17:01:16 · 117 阅读 · 0 评论 -
加速 lucene 索引建立速度 ImproveIndexingSpeed
本文 只是简单的翻译,原文 在 http://wiki.apache.org/lucene-java/ImproveIndexingSpeed转自:http://blog.fulin.org/2009/06/improveindexingspeed.html* Be sure you really need to speed things up.Many of the ideas ...原创 2010-12-17 16:58:31 · 142 阅读 · 0 评论 -
lucene 3.0 中的demo项目部署
转自:bjqincy 1 在myEclipise 建立一个web 工程,将lucene-3.0.2\src中的code 粘贴到 src中。将lucene-3.0.2\src\jsp下面的 文件黏贴到 webroot 下面,将 lucene-core-3.0.2.jar;lucene-demos-3.0.2.jar 拷贝的lib下,添加jar在项目中建立一个文件夹 index 文件夹,...原创 2010-12-15 22:02:51 · 100 阅读 · 0 评论 -
Lucene 3.0.2 源码 - final class Document
package org.apache.lucene.document;/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this ...原创 2010-12-14 22:33:38 · 83 阅读 · 0 评论 -
Lucene 3.0.2 源码 - final class Field
package org.apache.lucene.document;/** * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this ...原创 2010-12-14 22:29:30 · 93 阅读 · 0 评论 -
Lucene 3.0.2 源码 - abstract class AbstractField
package org.apache.lucene.document;/** * Copyright 2006 The Apache Software Foundation * * Licensed under the Apache License, Version 2.0 (the "License"); * you may not use this file exce...原创 2010-12-14 22:28:57 · 104 阅读 · 0 评论 -
Lucene 3.0.2 源码 - interface Fieldable
package org.apache.lucene.document;/** * Copyright 2004 The Apache Software Foundation * * Licensed under the Apache License, Version 2.0 (the "License"); * you may not use this file ex...原创 2010-12-14 22:28:08 · 102 阅读 · 0 评论 -
LinkedIn公司实现的实时搜索引擎Zoie
转自:forfuture1978一、总体架构Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:http://snaprojects.jira.com/wiki/display/ZOIE/OverviewZoie is a realtime indexing and search system, and as such needs ...原创 2010-12-14 21:02:44 · 71 阅读 · 0 评论 -
Lucene3.0 初窥 总结(收藏)
【Lucene3.0 初窥】全文检索的基本原理 【Lucene3.0 初窥】Lucene体系结构概述 【Lucene3.0 初窥】文本分析器Analyzer 【Lucene3.0 初窥】数据源内存组织结构—Document/Field 【Lucene3.0 初窥】索引创建(1):IndexWriter索引器 【Lucene3.0 初窥】索引创建(2)...原创 2010-12-25 22:16:03 · 117 阅读 · 0 评论 -
Lucene 学习推荐博客
深未来deepfuturelxhttp://deepfuture.iteye.com/category/93496原创 2010-12-25 22:42:00 · 81 阅读 · 0 评论 -
Lucene 学习总结(收藏)推荐
Lucene学习总结之一:全文检索的基本原理 Lucene学习总结之二:Lucene的总体架构 Lucene学习总结之三:Lucene的索引文件格式 (1) Lucene学习总结之三:Lucene的索引文件格式 (2) Lucene学习总结之三:Lucene的索引文件格式 (3) Lucene学习总结之四:Lucene索引过程分析(1) Lu...原创 2010-12-30 20:54:50 · 196 阅读 · 0 评论 -
基于Lucene的Compass 资源(收藏)
1.2、Compass相关网上资源 1、官方网站1: http://www.opensymphony.com 2、官方网站2:[url] http://www.compass-project.org[/url] 3、官方社区:http://forum.compass-project.org 1.3、相关文章 1、《Compass指南》 作者:江南白衣 http://wiki.springside....原创 2010-12-29 18:29:50 · 128 阅读 · 0 评论 -
Lucene 3.0.2索引文件官方文档(二)
Deletable FileA writer dynamically computes the files that are deletable, instead, so no file is written.Compound FilesStarting with Lucene 1.4 the compound file format became default. Thi...原创 2010-12-28 22:36:35 · 119 阅读 · 0 评论 -
Lucene 3.0.2索引文件官方文档(一)
Apache Lucene - Index File FormatsIndex File FormatsDefinitionsInverted IndexingTypes of FieldsSegmentsDocument NumbersOverviewFile NamingSummary of File ExtensionsP...原创 2010-12-28 22:34:28 · 149 阅读 · 0 评论 -
Lucene 3.0 索引文件学习总结(收藏)
lucene学习1——词域信息文件(.fnm)lucene学习2——词域存储文件(.fdx和.fdt)lucene学习3——词条字典[Term Dictionary]文件(.tis和.tii)与词条频率文件(.frq)、词条位置文件(.prx)lucene学习4——正态化因子[Normalization Factors]文件(.nrm)lucene学习5——分段文件(segment...原创 2010-12-28 22:28:40 · 105 阅读 · 0 评论