搜索引擎
文章平均质量分 80
fengzanfeng
这个作者很懒,什么都没留下…
展开
-
nutch1.3+hadoop0.20.2+solr3.2搭建
一 简介1 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. Nutch必须能够做到: * 每个月取几十亿网原创 2011-08-20 21:20:23 · 978 阅读 · 0 评论 -
Lucene学习总结之二:Lucene的总体架构
Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。转载 2011-11-10 15:56:01 · 454 阅读 · 0 评论 -
Lucene学习总结之一:全文检索的基本原理
一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具有固定格式或有限长度转载 2011-11-10 15:55:25 · 478 阅读 · 0 评论 -
Nutch Crawler工作流程及文件格式详细分析
Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在硬件平台上,例如Crawler和Searcher分别被放置在两个主机上,这样可以极大的提高灵活性和性能。一、总体介绍:1、先注入种子urls到crawldb2、循环: * generate 从crawldb中生成一个url的子集用于抓取 * fetch 抓取上一小的ur原创 2011-08-21 19:41:24 · 441 阅读 · 0 评论 -
natch常用的几个类
抓取目录分析一共生成5个文件夹,分别是:l crawldb目录存放下载的URL,以及下载的日期,用来页面更新检查时间.l linkdb目录存放URL的互联关系,是下载完成后分析得到的.l segmen原创 2011-08-21 19:42:06 · 443 阅读 · 0 评论 -
Nutch搜索引擎系统架构
下面分析一下Nutch搜索引擎系统的特点。一、系统架构 总体上Nutch可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓 取程序和搜索程序的接口是索引,两者都使用索引中的字段。抓取程转载 2011-08-21 19:40:01 · 638 阅读 · 0 评论 -
omitNorms for field in solr schema
1. 首先看一下官方的介绍:http://wiki.apache.org/solr/SchemaXmlomitNorms=true|falseThis is arguably an advanced option.Set to true to omit the norms associated with this field (this disables length normal原创 2014-03-25 14:14:54 · 2582 阅读 · 0 评论