nutch入门学习

原创 2007年10月15日 09:48:00

 

目 录
1.         nutch简介
1.1   什么是nutch
1.2   研究nutch的原因
1.3   nutch的目标
1.4   nutch VS lucene
2.         nutch的安装与配置
2.1   JDK的安装与配置
2.2   nutch的安装与配置
2.3   tomcat的安装与配置
3.         nutch初体验
3.1   爬行企业内部网
3.1.1          配置nutch
3.1.2          配置tomcat
3.1.3          执行抓取结果
3.1.4          测试结果
3.1.5          Intranet Recrawl
3.2   爬行全网
3.2.1          nutch数据集的基本组成
3.2.2          爬行“官方”网址
3.2.3          爬行中文网址
4.         nutch基本原理分析
4.1   nutch的基本组成
4.2   nutch工作流程
5.         nutch工作流程分析
5.1   爬虫
5.1.1          工作策略
5.1.2          工作流程分析
5.1.3          其它
5.2   索引
5.2.1          索引主要过程
5.2.2          工作流程分析
5.2.3          倒排索引
5.2.4          其它
5.3   搜索
5.4   分析
5.5   nutch的其他一些特性
6.         nutch分析方法和工具
6.1   Crawldb
6.2   Linkdb
6.3   Segments
6.4   Index
7.         nutch分布式文件系统
7.1   概述
7.2   MapReduce
7.3   文件系统语法
7.4   文件系统设计
7.5   系统的可用性
7.6   Nutch文件系统工作架构
8.         nutch应用
8.1   修改源码
8.2   插件机制---plugin
8.2.1          什么是plugin
8.2.2          使用plugin的好处
8.2.3          Plugin工作原理
8.2.4          编写plugin
8.3   API接口
8.3.1          使用NutchAPI
8.3.2          使用OpenSearchAPI
8.4   Nutch的应用前景
附录一: nutch的相关网站
附录二: 参考文献
 
文章下载地址(pdf版):http://download.csdn.net/source/263539

Nutch学习与安装

1,apache nutch 官方说明: Apache的Nutch是一个开源Java编写的网络爬虫。通过它,我们可以自动的抓取网络上的链接,减少大量的维护工作,比如:检查环链,死链,并且把抓取到的网页...
  • lskyne
  • lskyne
  • 2013年07月05日 16:36
  • 8515

Nutch学习——读源码 Crawl.java

我们的命令是: bin/nutch crawl url -dir data 最先进入 Crawl.java ------main方法:  /* Perform comple...
  • lemon89
  • lemon89
  • 2014年11月11日 16:04
  • 766

Nutch-2.2.1学习之八过滤抓取数据

在Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt...
  • sky_walker85
  • sky_walker85
  • 2013年12月25日 20:28
  • 6781

Nutch-2.2.1学习之二编译部署Nutch及常见问题

Nutch1.x从1.7版本开始不再提供完整的部署文件,只提供源代码文件及相关的build.xml文件,这就要求用户自己编译Nutch,而整个Nutch2.x版本都不提供编译完成的文件,所以想要学习N...
  • sky_walker85
  • sky_walker85
  • 2013年11月23日 21:57
  • 12808

深入分析nutch的抓取流程

分析Nutch的工作流程 Nutch爬虫工作策略 Nutch爬虫的工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incrementalcr...
  • yeahi
  • yeahi
  • 2015年11月09日 14:08
  • 4287

Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引

原文地址: http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.htmlNutch 2.2.1发布快两月了,该版本与Nutch之前版本相比,有较大变化,特别...
  • AloneSword
  • AloneSword
  • 2014年06月20日 21:58
  • 5411

开发一款开源爬虫框架系列(一):分析nutch,scrapy的爬虫设计

nutch的架构分析    injector首次会从url.txt中取出url然后将url分配给hadoop中的不同job进行url标准化和校验,并构造对象。generator会利用hadoop中不...
  • flashflight
  • flashflight
  • 2016年09月07日 01:48
  • 1927

nutch爬取新闻,如何做到指定的定时更新

爬新闻,需要注意的是,一定要更新 #!/bin/sh export JAVA_HOME=/usr/java/jdk1.6.0_45 export CLASSPATH=.:$JA...
  • leave00608
  • leave00608
  • 2014年06月03日 14:54
  • 3628

Nutch抓取数据内容的详解

命令:$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10(存放seed路径在tianya目录下) 抓取过程为: Inj...
  • qiange520
  • qiange520
  • 2016年03月03日 18:15
  • 1989

Nutch抓取插件-HTTPS协议支持

1 什么是HTTPS协议?HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer),是以安全为目标的HTTP通道,简单讲是HTTP...
  • sinat_27555287
  • sinat_27555287
  • 2016年05月24日 12:24
  • 1055
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:nutch入门学习
举报原因:
原因补充:

(最多只允许输入30个字)