Nutch简介

  • Nutch是基于Java的开源搜索引擎。
  • Nutch有如下优点:简单,支持分布式爬虫。
  • Nutch爬虫的设计着重两个方面:
    • 存储过程
    • 爬虫过程
  • Nutch存储主要使用数据文件,数据文件有三类:
    • Web database,也叫WebDB,仅在爬虫中使用,用于存储爬虫抓取的网页之间的链接结构信息。WebDB存储了两种实体信息:
      • Page 描述网页的特征信息,包括网页内的链接数目、网页的抓取时间、网页权重等,相当于图的节点。
      • Link 描述两个Page之间的链接关系,相当于图的边。
    • segment 存储一次抓取过程中抓到的网页以及索引信息。
    • index 指爬虫抓取的所有网页的索引,由segment的索引合并处理得到
  • Nutch利用Lucene技术进行索引,Lucene的段与Nutch的段不同。Lucene的段是索引的一部分,而Nutch中段和索引是各自独立的。
  • 在 Nutch 中,抓取操作的实现是通过实现一系列子操作来完成的。 Nutch 提供了子命令行可以单独调用这些子操作:
    1. 创建一个新的 WebDB (admin db -create),并且将起始 URL 写入 WebDB (inject)。
    2. 根据 WebDB 生成预取列表并写入相应的 segment(generate)。
    3. 根据预取列表中的 URL 抓取网页(fetch)。
    4. 解析(parse)获得的网页。
    5. 根据网页内的 URL 更新 WebDB(updateDB)。
    6. 循环进行(2)~(5)步直至预先设定的抓取深度。<
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值