本教程演示了WebCollector 2.20的新特性。
下载
WebCollector最新jar包可在WebCollector github主页下载。
内容:
本教程和深度遍历没有任何关系,只是讲解如何获取当前网页在遍历树中的深度。
利用2.20版本中的新特性MetaData可以轻松实现这个功能。
import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;
/**
* 本教程和深度遍历没有任何关系
* 一些爬取需求希望加入深度信息,即遍历树中网页的层
* 利用2.20版本中的新特性MetaData可以轻松实现这个功能
*
* @author hu
*/
public class