一、nutch简介
nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。
Nutch是一个开源的网络爬虫,在搜索引擎中负责爬取网页,同时自动维护网页的URL信息,例如相同网页去重、网页定时更新、网页重定向。nutch采用了MapReduce分布式爬取和解析,具有良好的水平扩展性。
现在版本的Nutch本身并不具有搜索功能(V1.2之后,nutch专注于爬取数据),但是可以自动向搜索服务器提交爬取的网页。例如,solr,可以通过Nutch自带的命令,来控制Nutch是否将网页提交给索引服务器。
Nutch虽然是优秀的分布式爬虫框架,但是它的所有设计,都是为了搜索引擎服务的。在hadoop上用map-reduce框架开发,并不是很适合做数据抽取的业务。如果你的业务是做数据抽取(精抽取),而不是搜索引擎。不一定要选用Nutch。
nutch现在分为两个分支。一个是1.x系列,一个是2.x系列。它们的主要区别是2.x引入了Gora作为存储抽象层,从而支持各种NoSQL数据库,如HBase,Cassandra等
二、nutch安装
1.nutch的运行环境
JDK1.7及以上
需要使用linux操作系统2.解压:
设置环境变量
验证: nutch
3.目录结构
bin:两个文件,一个是nutch,一个是crawl,
crawl是对nutch中的命令进行了封装,实现了一站式调用。
conf:里面保存了nutch的基本配置信息,nutch-default.xml nutch-site.xml parse-plugins.xml regex-urlfilter.txt
docs:api文档
lib:存储了nutch的依赖jar包
plugins:存储了nutch使用的插件jar包
三