Nutch教程中文翻译1(官方教程,中英对照)——Nutch的编译、安装和简单运行

本教程介绍了Apache Nutch 1.x的安装、配置及初步使用,包括从二进制和源码两种方式安装,验证安装成功,配置爬虫属性,创建URL种子列表,并指导如何使用crawl命令爬取网站。教程强调了Nutch与Solr的集成,并提供了针对Windows和Unix环境的操作提示。
摘要由CSDN通过智能技术生成

本教程是Nutch官方教程的翻译,采用逐段翻译的方法,并加上自己的解释。

本文由精简导航提供。

本文原版发布在CSDN博客精简导航,并且文章在持续修改和更新。其他网站出现皆为转载,转载的文章不一定完整。请浏览原网页

本教程虽然是Nutch 1.x的教程,但是官网上Nutch2.x的教程只是告诉我们怎么去配置一些新特性。Nutch2.x的基础教程,仍在在本教程中。


Introduction

Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over. That’s where Apache Solr comes in. Solr is an open source full text search framework, with Solr we can search the visited pages from Nutch. Luckily, integration between Nutch and Solr is pretty straightforward as explained below.

Apache Nutch supports Solr out-the-box, greatly simplifying Nutch-Solr integration. It also removes the legacy dependence upon both Apache Tomcat for running the old Nutch Web Application and upon Apache Lucene for indexing. Just download a binary release from here.


简介

Apache Nutch是一个开源的JAVA网络爬虫。Nutch会帮我们自动管理超链接信息,大大减少了维护的时间,比如检测损坏的链接、对已访问的页面做副本,提交给搜索引擎。

Solr是一个开源的全文本搜索框架。我们可以通过Solr来搜索Nutch爬取的网页。庆幸的是,集成Nutch和Solr是非常简单的。

Apache Nutch支持Solr的out-the-box,大大简化了Nutch和Solr的集成。现在的版本移除了老版本中,利用tomcat和lucene进行索引的模块。


非官方注释:

1.Nutch是一个网络爬虫,在搜索引擎中负责爬取网页,同时自动维护网页的URL信息,例如相同网页去重、网页定时更新、网页重定向。

2.现在版本的Nutch本身并不具有搜索功能,但是可以自动向搜索服务器提交爬取的网页。搜索服务器,例如Solr,是另一个开源项目,需要自己下载。

3.可以通过Nutch自带的命令,来控制Nutch是否将网页提交给索引服务器。

4.Nutch虽然是优秀的分布式爬虫框架,但是它的所有设计,都是为了搜索引擎服务的。在hadoop上用map-reduce框架开发,并不是很适合做数据抽取的业务。如果你的业务是做数据抽取(精抽取),而不是搜索引擎。不一定要选用Nutch。



Requirements


运行环境需求:

         Unix(linux),或者装有Cygwin的Windows

          JDK1.5及以上

          Apache Ant


非官方注释:

         1.强烈建议在Linux/unix上,进行Nutch的开发。如果没有Linux,建议在windows上装linux虚拟机。

         2.Apache Ant非常必要。Nutch的整个编译过程是通过一个叫build.xml的配置文件来控制的。这个配置文件要有Ant才可以运行。Nutch官方源码没有提供Eclipse的配置文件,所以Eclipse不能直接编译Nutch。虽然可以利用Apache Ant将官方源码,转换成Eclipse工程,但是这样并不是很好。

         3.要阅读下面的教程,一定要先安装Linux(或unix、cygwin)、JDK和apache ant,否则下面的步骤将无法进行。虽然安装这些东西可能需要花费数小时的时间,但是是必须的。

1. Install Nutch

安装Nutch

Option 1: Setup Nutch from a binary distribution

  • Download a binary package (apache-nutch-1.X-bin.zip) fromhere.

  • Unzip your binary Nutch package. There should be a folder apache-nutch-1.X.

  • cd apache-nutch-1.X/

From now on, we are going to use ${NUTCH_RUNTIME_HOME} to refer to the current directory (apache-nutch-1.X/).


方式一:从二进制发布包安装Nutch

          1.下载Nutch1.x的二进制包。

          2.解压下载的包。里面应该有个文件夹apache-nutch-1.x。

          3.用命令行进入apache-nutch-1.x文件夹。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集的基本组成:.....18 3.2.2 爬行"官方"网址.....18 3.2.3 爬行中文网址....22 4. nutch基本原理分析...23 4.1 nutch的基本组成.23 4.2 nutch工作流程.....23 5. nutch工作流程分析...25 5.1 爬虫...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排索引(inverted index)....29 5.2.4其它...29 5.3 搜索...29 5.4 分析...30 5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch文件系统工作架构...43 8. nutch应用.45 8.1 修改源码.....45 8.2 插件机制---plugin........45 8.2.1 什么是plugin......45 8.2.2 使用plugin的好处.......45 8.2.3 plugin工作原理...46 8.2.4 编写plugin47 8.3 API接口.......53 8.3.1使用Nutch API....53 8.3.2使用OpenSearch API...55 8.4 nutch的应用前景.57 附录一: nutch的相关网站......58 附录二: 参考文献..58

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值