- 博客(4)
- 收藏
- 关注
原创 【Nutch】DbUpdaterJob
DbUpdaterJob是比较关键的一个任务,它负责将上一步由种子url解析出来的outlink urls更新到数据库中,以便于以后下一轮的抓取。相当于承担了一个开枝散叶的责任,所谓“不孝有三,无后为大”…… 首先:package org.apache.nutch.crawl;还是先从job开始看起。
2015-08-23 17:21:49 1089
原创 【Nutch】ParserJob
parse的主要工作是对抓取的网页进行解析,解析出其中的text,outlinks和metadata等信息。首先:package org.apache.nutch.parse;
2015-08-23 16:14:51 1319
原创 【Nutch】Nutch-2.3 + HBase-0.94.14 + Solr-4.10.4 集成配置与安装
Nutch 是一个开源Java 实现的分布式网络爬虫。现在Nutch分为两个版本:1.x和2.x,这两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Cassandra、MySQL、DataFileAvroStore、AvroStore等等。
2015-08-21 13:44:32 1505
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人