nutch
fuyangchang
这个作者很懒,什么都没留下…
展开
-
nutch0.9 NT批处理文件---调试通过
nutch0.9 NT批处理文件 nutch0.9 NT批处理文件下载原创 2007-06-28 14:39:00 · 713 阅读 · 0 评论 -
Nutch 相关 (三) Nutch的分词的架构
今天仔细研究了一下Nutch的org.apache.nutch.anlysis包,其中大多的类都是与Nutch在爬行网页时候对网页中的文本分词解 析相关的。Nutch解析文本类的架构得非常好,下面就让我们来研究下它的架构吧,了解清楚之后就可以为我们之后加入中文分词打下很好的基础。 Nutch分词的最底层使用的是lucene的Analyzer抽象类,它位于org.apache.lucene.转载 2007-06-19 17:36:00 · 979 阅读 · 0 评论 -
Nutch 0.8笔记--Google式的搜索引擎实现
作者:江南白衣 Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。1.Nutch 0.8 的安装与运行nut转载 2007-06-16 16:46:00 · 931 阅读 · 0 评论 -
nutch0.7.2安装成功
1、设置Nutch的环境变量 在Windows系统的环境变量设置中,增加NUTCH_JAVA_HOME变量,并将其值设为JDK的安装目录。比如笔者电脑中JDK安装于D:/j2sdk1.4.2_09,因此将NUTCH_JAVA_HOME的值设为D:/j2sdk1.4.2_09。 2、Nutch抓取网站页面前的准备工作 (1)在Nutch的安装目录中建立一个名为url.txt的文本文原创 2007-10-23 16:08:00 · 993 阅读 · 0 评论 -
org.apache.nutch.indexer之IndexingFilter
该类是一个接口类,所有的插件都要继承这个类,这个类也是indexing的扩展点。原创 2007-10-26 19:55:00 · 894 阅读 · 0 评论 -
nutch源代码分析--index(一)
package org.apache.nutch.indexer;1。static OutputFormat类用来初始化lucene对象并设置lucene各个参数。各个参数从JobConf job参数中获取。2. public void reduce(WritableComparable key, Iterator values, OutputCollector output, Reporter原创 2007-10-26 15:46:00 · 1334 阅读 · 0 评论