Lucene
文章平均质量分 77
esteem
这个作者很懒,什么都没留下…
展开
-
lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章的关键词,通常我...原创 2008-10-08 16:02:55 · 68 阅读 · 0 评论 -
使用Lucene2.3构建搜索引擎
Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在 Excite担任高级系统架构设计师,目前从事于一些INTERNE...原创 2008-10-08 16:45:04 · 87 阅读 · 0 评论 -
Lucene使用与优化
我认为这篇文章作为入门,对Lucene的总结比较好: 1 lucene简介 1.1 什么是lucene Lucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。 1.2 lucene能做什么 要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一...原创 2008-10-08 17:41:27 · 133 阅读 · 0 评论 -
nutch 初次接触
最近一直在看lucene,了解到了 nutch,也同时了解了下 hadoop。 要在windows平台上使用nutch、hadoop ,需要安装cygwin,这个工具的安装很多blog上面都有介绍。我就不详细说了。关键是大家在安装的时候 选择把openssh也安装上。 这里先只说说我是如何运行起nutch的。 首先说下我的目录结构 F: cygwin/ bin ...原创 2008-10-20 13:48:13 · 91 阅读 · 0 评论 -
Nutch中MapReduce的分析
作者:马士华 Nutch是最早用MapReduce的项目 (Hadoop其实原来是Nutch的一部分),Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表(Inject),生成抓取列表(Generate),抓取内容(Fetch), 分析处理内容(Parse),更新Crawl DB库(Updat...原创 2008-10-20 17:55:41 · 169 阅读 · 0 评论