Lucene搜索引擎
莫欺少年穷
JAVA高级工程师,熟悉常用框架,参与架构的设计和完善,一枚联想工作的梦想奋斗师!
展开
-
【转载】Lucene学习笔记(三)
三、用Lucene建立索引:大纲:1. Lucene索引的建立过程以及相关技术的简介2. Lucene的文档格式3. Lucene索引的优化4. Lucene索引的同步机制5. Lucene索引的格式1. 索引建立的过程:大致分为以下四步"提取文本"、"构建Document"、"分析"和"建立索引"。1.1 提取文本:为了使Lucene对文档数据建立索引原创 2012-06-11 18:02:41 · 1544 阅读 · 0 评论 -
【转载】Lucene学习笔记(五)
五、Lucene的分析器:大纲:1. Lucene分析器Analyzer2. JavaCC与Tokenizer3. Lucene内建的分析器4. 定制自己的分词器和过滤器1. Lucene分析器----Analyzer1.1 Analyzer的概述:中文翻译是"分析器"。它主要用于分析切词或者过滤搜索时遇到的各种文本。用更具体的话说其实就是"分词"和"过滤"。原创 2012-06-11 18:05:21 · 1000 阅读 · 0 评论 -
【转载】Lucene学习笔记(一)
本人学习Lucene真实笔记,其中如有表达、理解错误或不清的地方希望大家指正,同时希望对需要的朋友有所帮助。申明:此文章中说到的分词器就是分析器(后边小节会讲到)中的一种,不要理解错了。一、Lucene基础:大纲:1. 信息获取与搜索引擎的发展2. Lucene的历史3. 建立索引(索引库)与搜索1. 信息获取技术包含:信息的表示、存储、组织原创 2012-06-11 18:00:38 · 1073 阅读 · 0 评论 -
【转载】Lucene学习笔记(二)
二、第一个"搜索引擎":大纲:1.Lucene下载包结构简介2.使用Lucene为本地文件建立索引3.测试性搜索4.改进的意见1.初识Lucene1.1 Lucene的下载:可到Apache官网http://lucene.apache.org下载Lucene开发工具包,这里我们用1.4.3稳定版本1.2 Lucene的源码包结构:1.2.1 anal原创 2012-06-11 18:01:29 · 1331 阅读 · 0 评论 -
【转载】Lucene学习笔记(四)
Lucene技术拓展: Lucene与数据库结合的建议:(引用自下边的2.2标题中的内容)比较好的一种方式是让Lucene和数据库结合使用,在索引中存入一些关键性的数据,如数据库表中数据的ID字段、路径字段或者简单文本。而真正的数据提取则从数据库中得到(就是根据据搜索出来的Document文档中保存的表数据的类似ID字段的数据到数据库中取出真正的数据),这样既可以发原创 2012-06-11 18:04:06 · 1268 阅读 · 0 评论 -
【转载】Lucene学习笔记(六)
六、高级搜索技巧:大纲:1. 对搜索结果的排序2. 多字段搜索和多索引搜索3. 对搜索结果的过滤1. 对搜索的结果排序:Lucene 1.4以前的版本,搜索结果只能够以Lucene内部的评分标准,采用降序排列来返回搜索结果集,通过这种方式实现将最相关的结果排在返回结果的较前面显示。如果想实现通过自己的方法排序也行,不过就要使用一些比较麻烦的手段了,就是先得到返回原创 2012-06-11 18:06:06 · 1189 阅读 · 0 评论 -
【转载】Lucene学习笔记(七)
七、性能测试:不重要,就是用一些代码进行了一些实际性能的测试。大纲:1. Google和百度的搜索速度2. 性能测试的方案3. 文档的预处理4. 性能测试结果比较1. 搜索的速度1.1 Google和百度的搜索速度:自己到网上搜索尝试一下就知道了。1.2 建立索引的速度:就是一些统计信息,不需要掌握。2. 设定测试环境与测试方案2.1原创 2012-06-11 18:06:45 · 718 阅读 · 0 评论 -
【转载】Lucene学习笔记(八)--完
八、搜索引擎的中文问题:大纲:1. 中文分词的一些常见问题2. Lucene的StandardAnalyzer对中文的处理3. CJKAnalyzer对中文的处理4. 中科院的中文分词工具1. 中文分词的问题:1.1 分词:指的就是将一个完整的句子换分为一个个的分词(Term)对象的过程。这种分词应当满足某种语言规则,以便于为其建立索引。1.2 中文原创 2012-06-11 18:07:25 · 1173 阅读 · 0 评论