2021SC@SDUSC
CrawlDbReducer::reduce
第二部分
public void reduce(Text key, Iterator values,
OutputCollector<Text, CrawlDatum> output, Reporter reporter)
throws IOException {
...
if (signature == null)
signature = fetch.getSignature();
long prevModifiedTime = oldSet ? old.getModifiedTime() : 0L;
long prevFetchTime = oldSet ? old.getFetchTime() : 0L;
result.set(fetch);
if (oldSet) {
if (old.getMetaData().size() > 0) {
result.putAllMetaData(old);
if (fetch.getMetaData().size() > 0)
result.putAllMetaData(fetch);
}
if (old.getModifiedTime() > 0 && fetch.getModifiedTime() == 0) {
result.setModifiedTime(old.getModifiedTime());
}
}
switch (fetch.getStatus()) {
...
case CrawlDatum.STATUS_FETCH_SUCCESS:
if (metaFromParse != null) {
for (Entry<Writable, Writable> e : metaFromParse.entrySet()) {
result.getMetaData().put(e.getKey(), e.getValue());
}
}
int modified = FetchSchedule.STATUS_UNKNOWN;
if (fetch.getStatus() == CrawlDatum.STATUS_FETCH_NOTMODIFIED) {
modified = FetchSchedule.STATUS_NOTMODIFIED;
} else if (fetch.getStatus() == CrawlDatum.STATUS_FETCH_SUCCESS) {
if (oldSet && old.getSignature() != null && signature != null) {
if (SignatureComparator._compare(old.getSignature(), signature) != 0) {
modified = FetchSchedule.STATUS_MODIFIED;
} else {
modified = FetchSchedule.STATUS_NOTMODIFIED;
}
}
}
result = schedule.setFetchSchedule(key, result, prevFetchTime,
prevModifiedTime, fetch.getFetchTime(), fetch.getModifiedTime(),
modified);
if (modified == FetchSchedule.STATUS_NOTMODIFIED) {
result.setStatus(CrawlDatum.STATUS_DB_NOTMODIFIED);
result.setModifiedTime(prevModifiedTime);
if (oldSet)
result.setSignature(old.getSignature());
} else {
switch (fetch.getStatus()) {
case CrawlDatum.STATUS_FETCH_SUCCESS:
result.setStatus(CrawlDatum.STATUS_DB_FETCHED);
break;
...
default:
if (oldSet)
result.setStatus(old.getStatus());
else
result.setStatus(CrawlDatum.STATUS_DB_UNFETCHED);
}
result.setSignature(signature);
}
break;
default:
}
scfilters.updateDbScore(key, oldSet ? old : null, result, linkList);
output.collect(key, result);
}
reduce函数的第二部分首先设置最终的结果result为对应FETCH状态最新的CrawlDatum,即fetch,接下来将old和fetch中的最新meta信息写入result中,先写old再写fetch是因为要使fetch中的meta信息能覆盖old中的,再往下,如果fetch中没有修改时间,就使用old的修改时间。下面假设fetch的状态为STATUS_FETCH_SUCCESS,metaFromParse为第一部分中状态为STATUS_PARSE_META的CrawlDatum的meta信息,如果该信息存在,就直接写入result中。reduce函数接下来比较签名,如果相等,表示即使fetch过网页,但和原先的网页一样,此时result最终的状态为STATUS_DB_NOTMODIFIED,反之,则为STATUS_DB_FETCHED。reduce函数最后根据所有状态为STATUS_LINKED的CrawlDatum更新分数,最后就输出到crawl/crawldb的临时文件夹中。最后通过CrawlDb的install函数进行替换操作,该函数已经在第一章就已经分析过了。