nutch入门学习

 

目 录
1.         nutch简介
1.1   什么是nutch
1.2   研究nutch的原因
1.3   nutch的目标
1.4   nutch VS lucene
2.         nutch的安装与配置
2.1   JDK的安装与配置
2.2   nutch的安装与配置
2.3   tomcat的安装与配置
3.         nutch初体验
3.1   爬行企业内部网
3.1.1          配置nutch
3.1.2          配置tomcat
3.1.3          执行抓取结果
3.1.4          测试结果
3.1.5          Intranet Recrawl
3.2   爬行全网
3.2.1          nutch数据集的基本组成
3.2.2          爬行“官方”网址
3.2.3          爬行中文网址
4.         nutch基本原理分析
4.1   nutch的基本组成
4.2   nutch工作流程
5.         nutch工作流程分析
5.1   爬虫
5.1.1          工作策略
5.1.2          工作流程分析
5.1.3          其它
5.2   索引
5.2.1          索引主要过程
5.2.2          工作流程分析
5.2.3          倒排索引
5.2.4          其它
5.3   搜索
5.4   分析
5.5   nutch的其他一些特性
6.         nutch分析方法和工具
6.1   Crawldb
6.2   Linkdb
6.3   Segments
6.4   Index
7.         nutch分布式文件系统
7.1   概述
7.2   MapReduce
7.3   文件系统语法
7.4   文件系统设计
7.5   系统的可用性
7.6   Nutch文件系统工作架构
8.         nutch应用
8.1   修改源码
8.2   插件机制---plugin
8.2.1          什么是plugin
8.2.2          使用plugin的好处
8.2.3          Plugin工作原理
8.2.4          编写plugin
8.3   API接口
8.3.1          使用NutchAPI
8.3.2          使用OpenSearchAPI
8.4   Nutch的应用前景
附录一: nutch的相关网站
附录二: 参考文献
 
文章下载地址(pdf版): http://download.csdn.net/source/263539
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值