ATCO[这里,只是顺手插曲]

KEEP住个势,努力!

Nutch 1.3 学习笔记 8 LinkDb

这里主要是分析一下org.apache.nutch.crawl.LinkDb,它主要是用计算反向链接。 1. 运行命令 bin/nutch invertlinks 帮助参数说明: [html] view plaincopy Usage...

2013-10-21 14:27:07

阅读数 703

评论数 0

Nutch 1.3 学习笔记 7 CrawlDb - updatedb

这里主要看一下CrawlDb中的updatedb,它主要是用来更新CrawlDb数据库的 1. bin/nutch updatedb 我们用nutch的命令行时会看到一个方法叫updatedb,其实这个方法就是调用CrawlDb.java类中的update方法,它的参数帮助如下...

2013-10-21 14:26:39

阅读数 778

评论数 0

Nutch 1.3 学习笔记 6 ParseSegment

1. bin/nutch parse 这个命令主要是用来解析抓取的内容,对其进行外链接分析,计算分数等操作,这个解析在抓取的时候就可以设置是否进行,如果在抓取的时候没有设置解析抓取的网页内容,那这边可以单独用一个Map-Reduce任务来做。 后面的参数为:Usage: ParseSegmen...

2013-10-21 14:26:09

阅读数 791

评论数 0

Nutch 1.3 学习笔记 5-1 FetchThread

上一节看了Fetcher中主要几个类的实现,这一节会来分析一下其中用到的消费者FetcherThread,来看看它是干嘛的。 1. Fetcher的Mapp模型 Fetcher.java代码中可以看到,Fetcher继承自MapRunable,它是Mapper的抽象接口,实现这...

2013-10-21 14:25:26

阅读数 616

评论数 0

Nutch 1.3 学习笔记 5 Fetcher

1. Fetcher模块的简单介绍 Fetcher这个模块在Nutch中有单独一个包在实现,在org.apache.nutch.fetcher,其中有Fetcher.java, FetcherOutput 和FetcherOutputFormat来组成,看上去很简单,但其中使用到了多线程,多线程...

2013-10-21 14:24:59

阅读数 609

评论数 0

Nutch 1.3 学习笔记 4-1 SegmentReader分析

前面我们看了一下Generate的流程,它是为Fetch产生相应的fetchlist,这里想介绍一下Segment的查看工具SegmentReader类。 1. 命令介绍 [html] view plaincopy bin/nutch ...

2013-10-21 14:24:30

阅读数 594

评论数 0

Nutch 1.3 学习笔记 4 Generate

1. Generate的作用    在Inject之后就是Generate,这个方法主要是从CrawlDb中产生一个Fetch可以抓取的url集合(fetchlist),再结合一定的过滤条件,它的命令行如下:     [html] view plaincopy ...

2013-10-21 14:23:58

阅读数 766

评论数 0

nutch 1.3 学习笔记3-1 Inject CrawlDB Reader

上次我们分析了Inject的整个流程,其中说到了Inject的输出格式是MapSequenceFileOutputFormat,这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。 1. CrawlDbReader工具的使用方法  ...

2013-10-21 14:23:21

阅读数 596

评论数 0

Nutch 1.3 学习笔记 - Inject

1. Inject是干嘛的? 在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。 这里的文本格式如下: [html] view plaincopy http://www.nutch.org/ \t ...

2013-10-21 14:22:33

阅读数 1108

评论数 0

Nutch 学习笔记 2

1. Nutch 1.3 运行命令的一些介绍    要看Nutch的命令说明,可执行如下命令bin/nutch    [html] view plaincopy  Usage: nutch [-core] COMMAND       where C...

2013-10-21 14:21:54

阅读数 608

评论数 0

Nutch 1.3 学习笔记1

1. Nutch是什么? Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1...

2013-10-21 14:21:03

阅读数 647

评论数 0

提高nutch爬取效率

Here are the things that could potentially slow down fetching  下面这些是潜在的影响爬取效率的内容:   1) DNS setup  2) The number of crawlers you have, too man...

2013-06-13 14:32:46

阅读数 2060

评论数 0

NUTCH主要源代码分析心得

主要类分析: 一、 org.apache.nutch.crawl.Injector:      1,注入url.txt     2,url标准化     3,拦截url,进行正则校验(regex-urlfilter.txt)     4,对符URL标准的url进行map对构造,在构造过程...

2013-06-09 09:20:32

阅读数 789

评论数 0

绕过ROBOTS规则,转向页面抓取配置,内容大小限制

1. 如何绕过目标站点的robots.txt限制  多数站点都是只允许百度、google等搜索引擎抓取的,所以会在robots.txt里限制其他爬虫。  nutch自然是会遵循robots协议的,但是我们可以通过修改nutch源码来绕过限制。  相关代码位于(nutch版本1.5.1,其他版...

2013-06-08 15:55:43

阅读数 2595

评论数 0

Nutch源代码研究 网页抓取 数据结构

今天我们看看Nutch网页抓取,所用的几种数据结构:  主要涉及到了这几个类:FetchListEntry,Page,  首先我们看看FetchListEntry类:  public final class FetchListEntry implements Writable, Clonea...

2013-06-05 11:25:19

阅读数 948

评论数 0

Nutch源代码研究 网页抓取 下载插件

今天我们来看看Nutch的源代码中的protocol-http插件,是如何抓取和下载web页面的。protocol-http就两个类HttpRespose和Http类,其中HttpRespose主要是向web服务器发请求来获取响应,从而下载页面。Http类则非常简单,其实可以说是HttpRespo...

2013-06-05 11:20:52

阅读数 920

评论数 0

Nutch源代码研究 网页抓取 fetch

搜索引擎Nutch源代码研究之一 网页抓取:  Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file  Protocol-ftp protocol-http protocol-httpclient以及相应的Pars...

2013-06-05 11:10:16

阅读数 2846

评论数 0

Nutch源代码研究 Parse网页

今天来看看Nutch如何Parse网页的:  Nutch使用了两种Html parser工具(NekoHTML和TagSoup)来实现html的提取,这两种工具是可通过配置来选择的。  当然你要自己实现Parser你还可以选择HTMLParser[基于visitor访问者模式同时也提供了Eve...

2013-06-05 10:59:36

阅读数 986

评论数 0

nutch 分布式部署 自测

本文档的NUTCH版本为NUTCH1.6 1、首先确认部署目标机子的HADOOP安装运行正常。(其方法不在本文章范围,请参考其它文档) 2、打包发布好NUTCH,修改配置: 这里对于配置的修改只需要修改runtime/deploy/xxx.JOB包里的nutch-site.xml: 爬虫标...

2013-03-29 14:55:30

阅读数 805

评论数 0

nutch 插件开发[资料整理]

plugin(插件)为nutch提供了一些功能强大的部件,nutch中很多功能都是使用插件实现的,而使用者也可以自行开发更多适合自已的插件。 nutch使用这样的plugin系统有什么好处: 1:可扩展性       通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的...

2013-03-06 15:04:40

阅读数 4130

评论数 0

提示
确定要删除当前文章?
取消 删除