大数据之nutch

最新推荐文章于 2024-04-20 23:46:34 发布

weixin_33924220

最新推荐文章于 2024-04-20 23:46:34 发布

阅读量602

点赞数 1

文章标签：大数据爬虫 java

原文链接：http://www.cnblogs.com/chaoren399/p/4789855.html

版权

本文介绍了Nutch，一个由Doug Cutting发起的开源网络爬虫项目，它与Hadoop的关系，以及Nutch在搜索引擎中的作用。Nutch使用MapReduce进行分布式爬取和解析，适用于大规模数据。Nutch 1.x和2.x的区别在于存储抽象层，2.x支持多种NoSQL数据库。文章还详细讲解了Nutch的安装、爬虫配置、数据生成、索引到Solr的过程，以及源码导入Eclipse和编译的方法。

摘要由CSDN通过智能技术生成

一、nutch简介

nutch是大名鼎鼎的Doug Cutting发起的爬虫项目，nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前，Hadoop是nutch的一部分，从nutch V0.8.0开始，HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后，nutch就完全构建在Hadoop的基础之上了。

Nutch是一个开源的网络爬虫，在搜索引擎中负责爬取网页，同时自动维护网页的URL信息，例如相同网页去重、网页定时更新、网页重定向。nutch采用了MapReduce分布式爬取和解析，具有良好的水平扩展性。
现在版本的Nutch本身并不具有搜索功能(V1.2之后，nutch专注于爬取数据)，但是可以自动向搜索服务器提交爬取的网页。例如，solr，可以通过Nutch自带的命令，来控制Nutch是否将网页提交给索引服务器。
Nutch虽然是优秀的分布式爬虫框架，但是它的所有设计，都是为了搜索引擎服务的。在hadoop上用map-reduce框架开发，并不是很适合做数据抽取的业务。如果你的业务是做数据抽取（精抽取），而不是搜索引擎。不一定要选用Nutch。
nutch现在分为两个分支。一个是1.x系列，一个是2.x系列。它们的主要区别是2.x引入了Gora作为存储抽象层，从而支持各种NoSQL数据库，如HBase，Cassandra等

二、nutch安装

1.nutch的运行环境
JDK1.7及以上
需要使用linux操作系统

2.解压:

设置环境变量

验证： nutch

3.目录结构

bin：两个文件，一个是nutch，一个是crawl，
        crawl是对nutch中的命令进行了封装，实现了一站式调用。

conf：里面保存了nutch的基本配置信息，nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt

docs：api文档
lib：存储了nutch的依赖jar包
plugins：存储了nutch使用的插件jar包

三