博客专栏  >  互联网   >  nutch源码分析

nutch源码分析

apache nutch的源码分析,injector、generate、fetch、parser等tool的MapReduce过程分析

关注
0 已关注
6篇博文
  • nutch v1.9源码分析(1)——分析目标

    以下主要分析一下nutch提供的各种tool,重点分析一下与爬取cycle相关的流程,也介绍一下其他tool,每个tool主要从如下几个方面介绍: 1)        每个tool的功能,即职责。 ...

    2014-12-03 17:23
    1293
  • nutch v1.9源码分析(2)——nutch bin和src目录解析及编译

    1      nutch bin目录结构 图1 nutch release包的目录结构 1)        bin目录:主要含有2个可执行文件crawl和nutch脚本,其中crawl脚本只是nut...

    2014-12-03 18:19
    2529
  • nutch v1.9源码分析(3)——nutch基本爬取流程

    1      nutch基本爬取流程 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理事实上的标准Hadoop。在nutch V 0.8.0 版本之前,H...

    2014-12-03 18:29
    2333
  • nutch v1.9源码分析(4)——injector分析

    1.1  inject 1.1.1  职责        将文本文件中的种子url初始化到系统存储所有url列表的库(crawldb)中。爬虫系统本质上是图遍历,最终目的是发现整个网络图(只不过nut...

    2014-12-03 18:39
    1296
  • nutch v1.9源码分析(5)——generator分析

    1.1        generator 1.1.1     职责 generator的目的是从crawldb中根据一定的选取策略,选取一部分url作为本次循环爬取列表(fetchlist)。在生成...

    2015-01-15 10:31
    2062
  • nutch v1.9源码分析(6)——plugin系统

    1      Nutch plugin system 1.1        为什么要使用插件机制? 1)        分离关注点,取得编译时和运行时的灵活性。 插件机制也是“微内核”机制的一种应用。...

    2015-01-20 09:44
    1135

img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部