自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

玉衡

The truth is what it is, not what you see.

  • 博客(4)
  • 收藏
  • 关注

原创 【Nutch】DbUpdaterJob

DbUpdaterJob是比较关键的一个任务,它负责将上一步由种子url解析出来的outlink urls更新到数据库中,以便于以后下一轮的抓取。相当于承担了一个开枝散叶的责任,所谓“不孝有三,无后为大”…… 首先:package org.apache.nutch.crawl;还是先从job开始看起。

2015-08-23 17:21:49 1089

原创 【Nutch】ParserJob

parse的主要工作是对抓取的网页进行解析,解析出其中的text,outlinks和metadata等信息。首先:package org.apache.nutch.parse;

2015-08-23 16:14:51 1319

原创 【Nutch】Nutch的抓取流程

Nutch的抓取流程。N.B. 本文最重要的部分在第三节对比部分!

2015-08-22 17:10:05 3013

原创 【Nutch】Nutch-2.3 + HBase-0.94.14 + Solr-4.10.4 集成配置与安装

Nutch 是一个开源Java 实现的分布式网络爬虫。现在Nutch分为两个版本:1.x和2.x,这两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Cassandra、MySQL、DataFileAvroStore、AvroStore等等。

2015-08-21 13:44:32 1505

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除