- 博客(5)
- 资源 (11)
- 收藏
- 关注
原创 Nutch1.7学习笔记6:ParseSegment源代码分析
Nutch1.7学习笔记6:ParseSegment源代码分析 作者:雨水,时间:2013-11-17 博客地址:http://blog.csdn.net/gobitan ParseSegment分析 ParseSegment类的结构相对要简单一些,与Injector等在内部类中实现map和reduce的方式不同,它直接在类中实现。 核心方法解析: map方法的功能包括: (1)
2013-11-30 10:38:23 3939
原创 Nutch1.7学习笔记5:Fetcher源代码分析
Nutch1.7学习笔记5:Fetcher源代码分析 作者:雨水,时间:2013-11-15 博客地址:http://blog.csdn.net/gobitan Fetcher分析 Fetcher是以生产者/消费者模式来处理网页抓取的。 QueueFeeder作为生产者,从前面Generator中产生的读取出来,然后加入到FetchItemQueues队列中,加入的时候需处理队列已满等异常情
2013-11-30 09:40:04 3652
原创 Nutch1.7学习笔记4:Generator源代码分析
Nutch1.7学习笔记4:Generator源代码分析 作者:雨水,时间:2013-11-14博客地址:http://blog.csdn.net/gobitan Generator分析 Generator的功能主要是将注入的URL按照一定的规则生产一系列CrawlDb的子集。这里的规则包括:抓取时间是否符合要求,是否符合设定过滤规则,根据页面评分进行排序,根据URL的host/ip/doma
2013-11-30 09:38:32 3420
原创 Nutch1.7学习笔记3:Injector源代码分析
Nutch1.7学习笔记3:Injector源代码分析 作者:雨水,时间:2013-11-13 博客地址:http://blog.csdn.net/gobitan Injector的主要功能 Injector的主要功能是将urls目录下的文本文件中的URL地址注入到CrawlDb中。 Injector类基本构成 (1) 三个主成员变量 nutchScoreMDName nutch
2013-11-30 09:28:45 3495
原创 Nutch1.7学习笔记2:基本工作流程分析
Nutch1.7学习笔记2:基本工作流程分析 作者:雨水,时间:2013-11-13博客地址:http://blog.csdn.net/gobitan 说明:本文的工作流程分析基于1.x的最新版Nutch1.7。 找到分析源头 分析软件的基本工作流程,通常都是从它的运行命令开始。在前面的一文 (地址:http://blog.csdn.net/gobitan/article/detai
2013-11-30 09:25:03 3536 4
mina2.07相关的依赖库jar资源
2014-08-25
FFmpeg4Android-master-2014-04-01.zip
2014-04-01
Android的Intent方式拍照源代码
2013-06-24
用TCP∥IP进行网际互联(第一卷:原理协议与结构).pdf
2010-03-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人