自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

转载 Nutch1.7Fetcher源代码分析

Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。  FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。 Fetcher与Injector和Generator的不

2015-04-16 16:18:48 419

转载 Nutch1.7ParseSegment源代码分析

ParseSegment分析 ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。   核心方法解析: map方法的功能包括: (1)   检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续; (2)   检查Content的内容是否为truncated以及par

2015-04-16 16:18:03 400

转载 Nutch1.7Generator源代码分析

Generator分析 Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。 generate方法主要包括三个job的执行: 第一个job的map和

2015-04-16 16:17:30 514

转载 Nutch1.7Injector源代码分析

Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1)    三个主成员变量 nutchScoreMDName nutchFetchIntervalMDName nutchFixedFetchIntervalMDName (2)    两个内部静态类 InjectMapper I

2015-04-16 15:52:49 410 1

转载 Nutch1.7基本工作流程分析

找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a

2015-04-16 14:23:08 340

转载 nutch在hadoop集群上安装使用

1.搭建Hadoop 2.5.1集群 配置yarn 2.创建hadoop用户 useradd hadoop passwd hadoop 3.使用hadoop用户来编译nutch-1.7文件夹 4.以hadoop用户创建文件 进入到/home/nutch/nutch-1.7/runtime/deploy文件夹下

2015-04-16 10:42:22 672

转载 nutch1.7基本工作流程源码分析

找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a

2015-04-15 17:05:23 133

转载 Nutch1.7二次开发培训讲义

1、下载并解压eclipse(集成开发环境)     使用Standard版     下载地址:Eclipse Standard 4.3.2 For Windows 64Bit               Eclipse Standard 4.3.2 For Windows 32Bit               其他操作系统版本   2、安装Subcl

2015-04-15 14:53:42 597

转载 Apache Nutch 1.7 单机安装

2015-04-15 14:20:04 446

转载 Apache Nutch 1.7 + Solr 4.4.0安装笔记

Nutch安装  参考文档: http://wiki.apache.org/nutch/NutchTutorial  安装必要程序:  yum update  yum list java*   yum install java-1.7.0-openjdk-devel.x86_64   找到java的安装路径:  参考: http://serverfaullt.com/question

2015-04-10 15:38:05 787

转载 Linux top命令的用法详细详解

op进入视图 top视图 01 【top视图 01】是刚进入top的基本视图,我们来结合这个视图讲解各个数据的含义。 复制代码代码如下: 第一行: 10:01:23 — 当前系统时间 126 days, 14:29 — 系统已经运行了126天14小时29分钟(在这期间没有重启过) 2 users — 当前有2个用户登录系统 load average: 1

2015-04-07 10:27:51 565

转载 安装Scrapy

Centos下安装Scrapy Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。 安装环境:   centos5.4 python2.7.3   安装步骤: 1.下载python2.7  http://www.python.org/ftp/python/2.7.3/Python-2.

2015-04-01 14:30:15 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除