nutch入门学习

liyang23456

于 2007-10-15 09:48:00 发布

阅读量1.4k

点赞数

文章标签：工作 mapreduce lucene tomcat jdk api

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyang23456/article/details/1825114

版权

目录

1. nutch简介

1.1 什么是nutch

1.2 研究nutch的原因

1.3 nutch的目标

1.4 nutch VS lucene

2. nutch的安装与配置

2.1 JDK的安装与配置

2.2 nutch的安装与配置

2.3 tomcat的安装与配置

3. nutch初体验

3.1 爬行企业内部网

3.1.1 配置nutch

3.1.2 配置tomcat

3.1.3 执行抓取结果

3.1.4 测试结果

3.1.5 Intranet Recrawl

3.2 爬行全网

3.2.1 nutch数据集的基本组成

3.2.2 爬行“官方”网址

3.2.3 爬行中文网址

4. nutch基本原理分析

4.1 nutch的基本组成

4.2 nutch工作流程

5. nutch工作流程分析

5.1 爬虫

5.1.1 工作策略

5.1.2 工作流程分析

5.1.3 其它

5.2 索引

5.2.1 索引主要过程

5.2.2 工作流程分析

5.2.3 倒排索引

5.2.4 其它

5.3 搜索

5.4 分析

5.5 nutch的其他一些特性

6. nutch分析方法和工具

6.1 Crawldb

6.2 Linkdb

6.3 Segments

6.4 Index

7. nutch分布式文件系统

7.1 概述

7.2 MapReduce

7.3 文件系统语法

7.4 文件系统设计

7.5 系统的可用性

7.6 Nutch文件系统工作架构

8. nutch应用

8.1 修改源码

8.2 插件机制---plugin

8.2.1 什么是plugin

8.2.2 使用plugin的好处

8.2.3 Plugin工作原理

8.2.4 编写plugin

8.3 API接口

8.3.1 使用NutchAPI

8.3.2 使用OpenSearchAPI

8.4 Nutch的应用前景

附录一: nutch的相关网站

附录二: 参考文献

文章下载地址（pdf版）: http://download.csdn.net/source/263539

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
nutch入门学习

目录1. nutch简介1.1 什么是nutch1.2 研究nutch的原因1.3 nutch的目标1.4 nutch VS lucene2. nutch的安装与配置2.1 JDK的安装与配置2.2 nutch的安装与配置2.3 tomcat的安装与配置3. nutch初体
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。