nutch

nutch的分布式前台由若干数据服务器(server)及一个客户端(Client)组成

nutch的数据服务器实现了以下几个接口:

  /** The distributed search protocol. */   public interface Protocol     extends Searcher, HitDetailer, HitSummarizer, HitContent {

    /** The name of the segments searched by this node. */     String[] getSegmentNames();   }

nutch把整个前台搜索过程分割成Searcher,HitDetailer,HitSummarier,HitContent这几个过程.

Searcher接受的参数是查询字符串和一些参数,如排序方式,返回的是Hits结构,Hits结构包含一个Hit结构的数组,Hit结构包含的主要是一条检索结果的docid和score

HitDetaiiler接受的参数是Searcher返回的Hit数组,返回的是HitDetails的数组,HitDetails除了含有一条检索结果的docid,还包含了lucene的index中除了docid域中之外的其他域,比如url,上下文.在nutch的实现中HitDetailer和Searcher使用相同的lucene index

HitSummarizer接受的参数是HitDetailer返回的HitDetails数组,它返回上下文标红后的结果

HitContent接受的参数也是HitDetailer返回的HitDetails数组,它返回cache的整个网页

nutch的客户端与其数据服务器间通过org.apache.nutch.ipc.RPC进行通讯,该类实现了Method的远程调用,caller端将Method的参数二进制串行化传到callee端,callee执行后把返回值二进制串行化后再返回给caller的服务器,传输通过socket.

这样Server仅需要实现接口Protocol,Client即可远程调用Server端的函数.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值