本教程是Nutch官方教程的翻译,采用逐段翻译的方法,并加上自己的解释。
本文由精简导航提供。
本文原版发布在CSDN博客和精简导航,并且文章在持续修改和更新。其他网站出现皆为转载,转载的文章不一定完整。请浏览原网页。
本教程虽然是Nutch 1.x的教程,但是官网上Nutch2.x的教程只是告诉我们怎么去配置一些新特性。Nutch2.x的基础教程,仍在在本教程中。
Introduction
Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over. That’s where Apache Solr comes in. Solr is an open source full text search framework, with Solr we can search the visited pages from Nutch. Luckily, integration between Nutch and Solr is pretty straightforward as explained below.
Apache Nutch supports Solr out-the-box, greatly simplifying Nutch-Solr integration. It also removes the legacy dependence upon both Apache Tomcat for running the old Nutch Web Application and upon Apache Lucene for indexing. Just download a binary release from here.
简介
Apache Nutch是一个开源的JAVA网络爬虫。Nutch会帮我们自动管理超链接信息,大大减少了维护的时间,比如检测损坏的链接、对已访问的页面做副本,提交给搜索引擎。
Solr是一个开源的全文本搜索框架。我们可以通过Solr来搜索Nutch爬取的网页。庆幸的是,集成Nutch和Solr是非常简单的。
Apache Nutch支持Solr的out-the-box,大大简化了Nutch和Solr的集成。现在的版本移除了老版本中,利用tomcat和lucene进行索引的模块。
非官方注释:
1.Nutch是一个网络爬虫,在搜索引擎中负责爬取网页,同时自动维护网页的URL信息,例如相同网页去重、网页定时更新、网页重定向。
2.现在版本的Nutch本身并不具有搜索功能,但是可以自动向搜索服务器提交爬取的网页。搜索服务器,例如Solr,是另一个开源项目,需要自己下载。
3.可以通过Nutch自带的命令,来控制Nutch是否将网页提交给索引服务器。
4.Nutch虽然是优秀的分布式爬虫框架,但是它的所有设计,都是为了搜索引擎服务的。在hadoop上用map-reduce框架开发,并不是很适合做数据抽取的业务。如果你的业务是做数据抽取(精抽取),而不是搜索引擎。不一定要选用Nutch。
Requirements
-
Unix environment, or Windows-Cygwin environment
-
Java Runtime/Development Environment (1.5+): http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html
-
(Source build only) Apache Ant: http://ant.apache.org/
运行环境需求:
Unix(linux),或者装有Cygwin的Windows
JDK1.5及以上
Apache Ant
非官方注释:
1.强烈建议在Linux/unix上,进行Nutch的开发。如果没有Linux,建议在windows上装linux虚拟机。
2.Apache Ant非常必要。Nutch的整个编译过程是通过一个叫build.xml的配置文件来控制的。这个配置文件要有Ant才可以运行。Nutch官方源码没有提供Eclipse的配置文件,所以Eclipse不能直接编译Nutch。虽然可以利用Apache Ant将官方源码,转换成Eclipse工程,但是这样并不是很好。
3.要阅读下面的教程,一定要先安装Linux(或unix、cygwin)、JDK和apache ant,否则下面的步骤将无法进行。虽然安装这些东西可能需要花费数小时的时间,但是是必须的。
1. Install Nutch
安装Nutch
Option 1: Setup Nutch from a binary distribution
-
Download a binary package (apache-nutch-1.X-bin.zip) fromhere.
-
Unzip your binary Nutch package. There should be a folder apache-nutch-1.X.
-
cd apache-nutch-1.X/
From now on, we are going to use ${NUTCH_RUNTIME_HOME} to refer to the current directory (apache-nutch-1.X/).
方式一:从二进制发布包安装Nutch
1.下载Nutch1.x的二进制包。
2.解压下载的包。里面应该有个文件夹apache-nutch-1.x。
3.用命令行进入apache-nutch-1.x文件夹。