【无标题】

2021SC@SDUSC

CrawlDbReducer::reduce
第二部分

public void reduce(Text key, Iterator values,
OutputCollector<Text, CrawlDatum> output, Reporter reporter)
throws IOException {

...

if (signature == null)
  signature = fetch.getSignature();
long prevModifiedTime = oldSet ? old.getModifiedTime() : 0L;
long prevFetchTime = oldSet ? old.getFetchTime() : 0L;

result.set(fetch);
if (oldSet) {
  if (old.getMetaData().size() > 0) {
    result.putAllMetaData(old);
    if (fetch.getMetaData().size() > 0)
      result.putAllMetaData(fetch);
  }
  if (old.getModifiedTime() > 0 && fetch.getModifiedTime() == 0) {
    result.setModifiedTime(old.getModifiedTime());
  }
}

switch (fetch.getStatus()) {

...

case CrawlDatum.STATUS_FETCH_SUCCESS:
  if (metaFromParse != null) {
    for (Entry<Writable, Writable> e : metaFromParse.entrySet()) {
      result.getMetaData().put(e.getKey(), e.getValue());
    }
  }

  int modified = FetchSchedule.STATUS_UNKNOWN;
  if (fetch.getStatus() == CrawlDatum.STATUS_FETCH_NOTMODIFIED) {
    modified = FetchSchedule.STATUS_NOTMODIFIED;
  } else if (fetch.getStatus() == CrawlDatum.STATUS_FETCH_SUCCESS) {
    if (oldSet && old.getSignature() != null && signature != null) {
      if (SignatureComparator._compare(old.getSignature(), signature) != 0) {
        modified = FetchSchedule.STATUS_MODIFIED;
      } else {
        modified = FetchSchedule.STATUS_NOTMODIFIED;
      }
    }
  }
  result = schedule.setFetchSchedule(key, result, prevFetchTime,
      prevModifiedTime, fetch.getFetchTime(), fetch.getModifiedTime(),
      modified);
  if (modified == FetchSchedule.STATUS_NOTMODIFIED) {
    result.setStatus(CrawlDatum.STATUS_DB_NOTMODIFIED);
    result.setModifiedTime(prevModifiedTime);
    if (oldSet)
      result.setSignature(old.getSignature());
  } else {
    switch (fetch.getStatus()) {
    case CrawlDatum.STATUS_FETCH_SUCCESS:
      result.setStatus(CrawlDatum.STATUS_DB_FETCHED);
      break;
    ...
    default:
      if (oldSet)
        result.setStatus(old.getStatus());
      else
        result.setStatus(CrawlDatum.STATUS_DB_UNFETCHED);
    }
    result.setSignature(signature);
  }
  break;

default:
}

scfilters.updateDbScore(key, oldSet ? old : null, result, linkList);
output.collect(key, result);

}

reduce函数的第二部分首先设置最终的结果result为对应FETCH状态最新的CrawlDatum,即fetch,接下来将old和fetch中的最新meta信息写入result中,先写old再写fetch是因为要使fetch中的meta信息能覆盖old中的,再往下,如果fetch中没有修改时间,就使用old的修改时间。下面假设fetch的状态为STATUS_FETCH_SUCCESS,metaFromParse为第一部分中状态为STATUS_PARSE_META的CrawlDatum的meta信息,如果该信息存在,就直接写入result中。reduce函数接下来比较签名,如果相等,表示即使fetch过网页,但和原先的网页一样,此时result最终的状态为STATUS_DB_NOTMODIFIED,反之,则为STATUS_DB_FETCHED。reduce函数最后根据所有状态为STATUS_LINKED的CrawlDatum更新分数,最后就输出到crawl/crawldb的临时文件夹中。最后通过CrawlDb的install函数进行替换操作,该函数已经在第一章就已经分析过了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值