2015年04月_july_2

转载 Nutch1.7Fetcher源代码分析

Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者，从前面Generator中产生的读取出来，然后加入到FetchItemQueues队列中，加入的时候需处理队列已满等异常情况。 FetcherThread作为消费者，不断从队列里取出待抓取的URL进行抓取。 Fetcher与Injector和Generator的不

2015-04-16 16:18:48 419

转载 Nutch1.7ParseSegment源代码分析

ParseSegment分析 ParseSegment类的结构相对要简单一些，与Injector等在内部类中实现map和reduce的方式不同，它直接在类中实现。核心方法解析： map方法的功能包括： (1) 检查URL对应的Content是否抓取成功，如果没有直接返回，否则继续; (2) 检查Content的内容是否为truncated以及par

2015-04-16 16:18:03 400

转载 Nutch1.7Generator源代码分析

Generator分析 Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括：抓取时间是否符合要求，是否符合设定过滤规则，根据页面评分进行排序，根据URL的host/ip/domain划分子集，是否超过设定的generate最大值(就是Crawl命令中的topN值)等。 generate方法主要包括三个job的执行：第一个job的map和

2015-04-16 16:17:30 514

转载 Nutch1.7Injector源代码分析

Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 nutchScoreMDName nutchFetchIntervalMDName nutchFixedFetchIntervalMDName (2) 两个内部静态类 InjectMapper I

2015-04-16 15:52:49 410 1

转载 Nutch1.7基本工作流程分析

找到分析源头分析软件的基本工作流程，通常都是从它的运行命令开始。在前面的一文 (地址：http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到，该命令实际运行的为org.a

2015-04-16 14:23:08 340

转载 nutch在hadoop集群上安装使用

1.搭建Hadoop 2.5.1集群配置yarn 2.创建hadoop用户 useradd hadoop passwd hadoop 3.使用hadoop用户来编译nutch-1.7文件夹 4.以hadoop用户创建文件进入到/home/nutch/nutch-1.7/runtime/deploy文件夹下

2015-04-16 10:42:22 672

转载 nutch1.7基本工作流程源码分析

找到分析源头分析软件的基本工作流程，通常都是从它的运行命令开始。在前面的一文 (地址：http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到，该命令实际运行的为org.a

2015-04-15 17:05:23 133

转载 Nutch1.7二次开发培训讲义

1、下载并解压eclipse（集成开发环境）使用Standard版下载地址：Eclipse Standard 4.3.2 For Windows 64Bit Eclipse Standard 4.3.2 For Windows 32Bit 其他操作系统版本 2、安装Subcl

2015-04-15 14:53:42 597

转载 Apache Nutch 1.7 单机安装

2015-04-15 14:20:04 446

转载 Apache Nutch 1.7 + Solr 4.4.0安装笔记

Nutch安装参考文档： http://wiki.apache.org/nutch/NutchTutorial 安装必要程序： yum update yum list java* yum install java-1.7.0-openjdk-devel.x86_64 找到java的安装路径：参考： http://serverfaullt.com/question

2015-04-10 15:38:05 787

转载 Linux top命令的用法详细详解

op进入视图 top视图 01 【top视图 01】是刚进入top的基本视图，我们来结合这个视图讲解各个数据的含义。复制代码代码如下: 第一行： 10:01:23 — 当前系统时间 126 days, 14:29 — 系统已经运行了126天14小时29分钟（在这期间没有重启过） 2 users — 当前有2个用户登录系统 load average: 1

2015-04-07 10:27:51 565

转载安装Scrapy

Centos下安装Scrapy Scrapy是一个开源的机遇twisted框架的python的单机爬虫，该爬虫实际上包含大多数网页抓取的工具包，用于爬虫下载端以及抽取端。安装环境: centos5.4 python2.7.3 安装步骤: 1.下载python2.7 http://www.python.org/ftp/python/2.7.3/Python-2.

2015-04-01 14:30:15 115

july_2的专栏