- 博客(12)
- 收藏
- 关注
转载 Nutch1.7Fetcher源代码分析
Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情况。 FetcherThread作为消费者,不断从队列里取出待抓取的URL进行抓取。 Fetcher与Injector和Generator的不
2015-04-16 16:18:48 419
转载 Nutch1.7ParseSegment源代码分析
ParseSegment分析 ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。 核心方法解析: map方法的功能包括: (1) 检查URL对应的Content是否抓取成功,如果没有直接返回,否则继续; (2) 检查Content的内容是否为truncated以及par
2015-04-16 16:18:03 400
转载 Nutch1.7Generator源代码分析
Generator分析 Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/domain划分子集,是否超过设定的generate最大值(就是Crawl命令中的topN值)等。 generate方法主要包括三个job的执行: 第一个job的map和
2015-04-16 16:17:30 514
转载 Nutch1.7Injector源代码分析
Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 nutchScoreMDName nutchFetchIntervalMDName nutchFixedFetchIntervalMDName (2) 两个内部静态类 InjectMapper I
2015-04-16 15:52:49 410 1
转载 Nutch1.7基本工作流程分析
找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a
2015-04-16 14:23:08 340
转载 nutch在hadoop集群上安装使用
1.搭建Hadoop 2.5.1集群 配置yarn 2.创建hadoop用户 useradd hadoop passwd hadoop 3.使用hadoop用户来编译nutch-1.7文件夹 4.以hadoop用户创建文件 进入到/home/nutch/nutch-1.7/runtime/deploy文件夹下
2015-04-16 10:42:22 672
转载 nutch1.7基本工作流程源码分析
找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/details/13916981)中提到了运行Nutch的命令为$bin/nutch crawl urls -dir crawl -depth 3 -topN 5。从命令中分析nutch脚本可以得到,该命令实际运行的为org.a
2015-04-15 17:05:23 133
转载 Nutch1.7二次开发培训讲义
1、下载并解压eclipse(集成开发环境) 使用Standard版 下载地址:Eclipse Standard 4.3.2 For Windows 64Bit Eclipse Standard 4.3.2 For Windows 32Bit 其他操作系统版本 2、安装Subcl
2015-04-15 14:53:42 597
转载 Apache Nutch 1.7 + Solr 4.4.0安装笔记
Nutch安装 参考文档: http://wiki.apache.org/nutch/NutchTutorial 安装必要程序: yum update yum list java* yum install java-1.7.0-openjdk-devel.x86_64 找到java的安装路径: 参考: http://serverfaullt.com/question
2015-04-10 15:38:05 787
转载 Linux top命令的用法详细详解
op进入视图 top视图 01 【top视图 01】是刚进入top的基本视图,我们来结合这个视图讲解各个数据的含义。 复制代码代码如下: 第一行: 10:01:23 — 当前系统时间 126 days, 14:29 — 系统已经运行了126天14小时29分钟(在这期间没有重启过) 2 users — 当前有2个用户登录系统 load average: 1
2015-04-07 10:27:51 565
转载 安装Scrapy
Centos下安装Scrapy Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。 安装环境: centos5.4 python2.7.3 安装步骤: 1.下载python2.7 http://www.python.org/ftp/python/2.7.3/Python-2.
2015-04-01 14:30:15 115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人