nutch入门学习

原创 2007年10月15日 09:48:00

 

目 录
1.         nutch简介
1.1   什么是nutch
1.2   研究nutch的原因
1.3   nutch的目标
1.4   nutch VS lucene
2.         nutch的安装与配置
2.1   JDK的安装与配置
2.2   nutch的安装与配置
2.3   tomcat的安装与配置
3.         nutch初体验
3.1   爬行企业内部网
3.1.1          配置nutch
3.1.2          配置tomcat
3.1.3          执行抓取结果
3.1.4          测试结果
3.1.5          Intranet Recrawl
3.2   爬行全网
3.2.1          nutch数据集的基本组成
3.2.2          爬行“官方”网址
3.2.3          爬行中文网址
4.         nutch基本原理分析
4.1   nutch的基本组成
4.2   nutch工作流程
5.         nutch工作流程分析
5.1   爬虫
5.1.1          工作策略
5.1.2          工作流程分析
5.1.3          其它
5.2   索引
5.2.1          索引主要过程
5.2.2          工作流程分析
5.2.3          倒排索引
5.2.4          其它
5.3   搜索
5.4   分析
5.5   nutch的其他一些特性
6.         nutch分析方法和工具
6.1   Crawldb
6.2   Linkdb
6.3   Segments
6.4   Index
7.         nutch分布式文件系统
7.1   概述
7.2   MapReduce
7.3   文件系统语法
7.4   文件系统设计
7.5   系统的可用性
7.6   Nutch文件系统工作架构
8.         nutch应用
8.1   修改源码
8.2   插件机制---plugin
8.2.1          什么是plugin
8.2.2          使用plugin的好处
8.2.3          Plugin工作原理
8.2.4          编写plugin
8.3   API接口
8.3.1          使用NutchAPI
8.3.2          使用OpenSearchAPI
8.4   Nutch的应用前景
附录一: nutch的相关网站
附录二: 参考文献
 
文章下载地址(pdf版):http://download.csdn.net/source/263539

nutch帮助文档;nutch学习 入门

  • 2011年03月15日 10:30
  • 913KB
  • 下载

Nutch 快速入门(Nutch 2.2.1)

Nutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直...
  • lzjzy520
  • lzjzy520
  • 2014-11-29 17:00:15
  • 5000

Nutch下载及构建

最近一段时间利用空余时间学习了一下关于nutch的简单的入门知识.现在看到单机版刚刚结束的地方,再研究下去的话就要涉及到hadoop的相关知识.这篇博客主要分享一下nutch单机版的一点入门知识. ...
  • sqh201030412
  • sqh201030412
  • 2015-12-13 22:01:43
  • 572

nutch的源码解读和nutch入门

  • 2011年03月27日 14:45
  • 17KB
  • 下载

Nutch基础教程(2.3.1版本)--Nutch2.3.X爬虫任务概述

本文描述Nutch2.X的爬虫任务(流程)目录* 介绍 * Generate * * Mapper(映射) * Partitioning(分区) * Reducer(化简) ...
  • oraclecx
  • oraclecx
  • 2017-07-05 15:33:31
  • 480

Nutch2.3系列教程——Nutch2.3编译

Nutch2的稳定版,Nutch2.3终于在2015年1月22日发布,官方所谓的Nutch2.x终于可以编译成功了。 下载地址:http://nutch.apache.org/downloads.h...
  • AJAXHu
  • AJAXHu
  • 2015-01-31 13:42:48
  • 3143

对nutch爬虫的一些理解

下图提供网上找来的相关流程图片,以便于理解:     总结如下:  1) 建立初始 URL 集  2) 将 URL 集注入 crawldb 数据库---inject  3) 根据 crawl...
  • qiange520
  • qiange520
  • 2016-03-03 11:19:42
  • 1729

Nutch 快速入门(Nutch 1.7)

1 下载已编译好的二进制包,解压 $ wget http://psg.mtu.edu/pub/apache/nutch/1.7/apache-nutch-1.7-bin.tar.gz $ tar zx...
  • lixwjava
  • lixwjava
  • 2014-03-16 08:58:29
  • 1101

nutch入门

环境nutch官网 http://nutch.apache.org/ linux系统 CentOS 7.3 64位 jdk1.8 apache-nutch-1.14-src.tar...
  • zxh476771756
  • zxh476771756
  • 2018-01-03 20:36:22
  • 126

nutch和lucene的区别

 想做一个搜索引擎,最近浏览了许多社区,发现Lucene和Nutch用的很多,而这两个我总感觉难以区分概念,于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录:...
  • rokii
  • rokii
  • 2008-03-01 15:35:00
  • 5849
收藏助手
不良信息举报
您举报文章:nutch入门学习
举报原因:
原因补充:

(最多只允许输入30个字)