Nutch
邹中凡
这个作者很懒,什么都没留下…
展开
-
Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装
Nutch起源于ApacheLucene项目,是一个可扩展和可伸缩的开源网络爬虫软件项目,包括两个版本的代码库,即: 1,Nutch1.x版本:一个成熟的产品化的爬虫。1.x版本依赖于Apache Hadoop的数据结构,并使用了细粒度配置。Hadoop对于批处理提供了很强大的功能。 2,Nutch2.x的版本:一个新兴的、直接受1.x版本启发的替代方案。该版本在存储的关键领域不与1.x版本同,原创 2015-03-10 14:11:11 · 4976 阅读 · 2 评论 -
Nutch2.3中的crawl和Nutch命令初探
一,环境信息 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:10.51.121.10 主机名:datanode-4 安装用户:root Nutch:Nutch2.3,安装路径:/root/nutch/apache-nutch-2.3 Hbase:Hbase0.94.14,安装路径:/root/hadoop/hbase-0.94.14 Solr:solr-4.原创 2015-03-10 17:26:06 · 5662 阅读 · 0 评论