Nutch
文章平均质量分 60
RuizeMa
这个作者很懒,什么都没留下…
展开
-
初识Nutch框架
简介 Nutch 是一个使用Java编写的开源的搜索引擎框架,基于开源框架Lucene,是Lucene工程的一个子项目,Lucene为 Nutch 提供了文本索引和搜索的API。 何时使用Lucene?何时使用Nutch? 如果你不需要抓取数据的话,应该原创 2011-08-06 15:26:18 · 1278 阅读 · 0 评论 -
Nutch的安装
1.、http://mirror.vmmatrix.net/apache/lucene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到D:/nutch-1.2中。 2、测试Nutch命令 在运行Nutch的脚本命令原创 2011-08-09 19:56:31 · 518 阅读 · 0 评论 -
nutch源代码阅读心得
主要类分析: 一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map原创 2011-08-11 15:02:58 · 436 阅读 · 0 评论 -
Map Reduce – the Free Lunch is not over?
微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次转载 2011-08-11 15:37:05 · 787 阅读 · 0 评论 -
Nutch插件机制分析
引言 Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoring、url过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点: 可扩展能力(Extensibili转载 2011-08-11 15:52:14 · 3790 阅读 · 0 评论 -
浅谈Nutch插件机制(含开发实例)
plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。 为什么nutch要使用这样的plugin系统? 有三个原因: 1:可扩展性 通转载 2011-08-11 16:03:52 · 946 阅读 · 0 评论 -
Nutch-0.9源代码:Crawl类整体分析
Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来转载 2011-08-12 16:43:02 · 725 阅读 · 0 评论 -
Nutch工作流程
Nutch工作流程:建立初始URL集合分析 初始URL集的建立有两种方式:超链接和站长提交。 超链接 是指机器人程序根据网页链到其他网页中的超链接,就像日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超原创 2011-08-12 16:25:53 · 1956 阅读 · 0 评论 -
Nutch-0.9源代码:NutchConfiguration类
org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.had转载 2011-08-14 17:29:15 · 572 阅读 · 0 评论