Nutch
popAnt
这两周拼一拼,如果安好,则,吾挟妻去坝上
展开
-
搜索引擎的原理简介
<br /><br />一、搜索引擎的原理简介<br />1.一个抓网络页面程序<br /> 把www中的各网站的内容抓到本地<br />2.一个文件解析工具<br /> 把抓下来的html、doc等源文件处理为更精确的格式文本<br />3.一个全文检索、分词、数据挖掘,解析文本,把数据抓到结构化数据库中<br /> 可以采取工具软件,未必要自己写。数据库可以是文件数据库。<br />4.开发一个搜索页面,从数据库里查询关键字<br /> 对查询关键字,进行一些逻辑处理。然后返回名称和url到页面转载 2010-06-01 23:12:00 · 623 阅读 · 0 评论 -
解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题
<br /><br />主题:解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题<br /><br />主要内容<br />一、Lucene的索引机制与索引文件结构<br />二、Nutch的爬虫分析与文件结构分析<br />三、Nutch segments的拆分索引实现方案<br /><br />一、Lucene的索引机制与索引文件结构<br />1、Lucene的索引机制<br />2、Lucene文件格式<br />_0.f0,_0.f1 文档文件<br /转载 2010-06-01 23:10:00 · 683 阅读 · 0 评论 -
Nutch 1.0 Fetcher 抓取模型解析
<br /><br />1. 介绍<br />2. 抓取流程分析<br />3. 结束<br />---------------<br />1. 介绍<br /> Nutch是apache Lucene的一个子项目,它主要用来进行网页数据的收集和索引。它用结合apache的Hadoop和Lucene等子项目。Nutch的一般抓取流程如下:<br /> 1. 把初始网址inject到crawlDb中进行准备抓取<br /> 2. 用generate模块对crawlDb中的网址进行过滤<br />转载 2010-06-01 23:15:00 · 1268 阅读 · 0 评论 -
爬虫crawler和查询searcher
<br /><br />Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。<br /> <br />Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。<br />爬虫,Craw原创 2010-06-01 23:22:00 · 793 阅读 · 0 评论 -
在Eclipse下配置nutch1.0 及1.1
<br /><1>: 首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0.<br /><2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source",指向自己nutch-1.0的目录.<br /><3>: 点击下一步,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择转载 2010-06-21 11:07:00 · 1477 阅读 · 0 评论 -
Nutch1.0 日志分析(转)
<br /><br />Hadoop集群创建文件<br />[nutch@gc01vm13 /]$ cd ./home/nutch/nutchinstall/nutch-1.0/<br />[nutch@gc01vm13 nutch-1.0]$ bin/hadoop fs -ls<br />Found 1 items<br />drwxr-xr-x - nutch supergroup 0 2010-06-09 20:10 /user/nutch/zklin<br />[nutc转载 2010-06-22 09:20:00 · 1382 阅读 · 0 评论 -
Nutch1.0 crawl分析(转)
<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /> <br />================================================================ <br />Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在转载 2010-06-22 11:53:00 · 583 阅读 · 0 评论 -
Nutch1.0 crawl分析(转)
<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /> <br />================================================================ <br />Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在转载 2010-06-22 11:53:00 · 621 阅读 · 0 评论 -
Nutch1.0 crawl分析(转)
<br /><br />源自:http://jlife.javaeye.com/blog/478315<br />关键字:nutch-1.0中,org.apache.nutch.crawl.crawl类中提供了一个入口主函数main,通过接收<br /> <br />================================================================ <br />Crawler和Searcher两部分被尽是分开,其主要目的是为了使两个部分可以布地配置在转载 2010-06-22 11:54:00 · 738 阅读 · 0 评论