Nutch - Apache
玉衡瑶光
这个作者很懒,什么都没留下…
展开
-
【Nutch】GeneratorJob
GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去原创 2015-06-04 20:58:55 · 771 阅读 · 0 评论 -
【Nutch】FetcherJob
FetcherJob: 对抓取队列中的网页进行抓取,在reducer中使用了生产/消费者模型原创 2015-06-05 19:54:19 · 1184 阅读 · 0 评论 -
【Nutch】DbUpdaterJob
DbUpdaterJob是比较关键的一个任务,它负责将上一步由种子url解析出来的outlink urls更新到数据库中,以便于以后下一轮的抓取。相当于承担了一个开枝散叶的责任,所谓“不孝有三,无后为大”…… 首先:package org.apache.nutch.crawl;还是先从job开始看起。原创 2015-08-23 17:21:49 · 1088 阅读 · 0 评论 -
【Nutch】ParserJob
parse的主要工作是对抓取的网页进行解析,解析出其中的text,outlinks和metadata等信息。首先:package org.apache.nutch.parse;原创 2015-08-23 16:14:51 · 1318 阅读 · 0 评论 -
【Nutch】Nutch-2.3 + HBase-0.94.14 + Solr-4.10.4 集成配置与安装
Nutch 是一个开源Java 实现的分布式网络爬虫。现在Nutch分为两个版本:1.x和2.x,这两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Cassandra、MySQL、DataFileAvroStore、AvroStore等等。原创 2015-08-21 13:44:32 · 1504 阅读 · 0 评论 -
【Nutch】InjectorJob
InjectorJob : 从文件中得到一批种子网页,把它们放到抓取数据库中去。原创 2015-06-03 16:54:30 · 753 阅读 · 0 评论 -
【Nutch】Nutch的抓取流程
Nutch的抓取流程。N.B. 本文最重要的部分在第三节对比部分!原创 2015-08-22 17:10:05 · 3013 阅读 · 0 评论