下面代码引用自WebCollector:
cn.edu.hfut.dmic.webcollector.model.Links
import org.jsoup.nodes.Element;
……
public Links addByRegex(Document doc, RegexRule regexRule) {
Elements as = doc.select("a[href]");
for (Element a : as) {
String href = a.attr("abs:href");
if (regexRule.satisfy(href)) {
this.add(href);
}
}
return this;
}
目前是添加doc中满足regexRule的link,提供下一级深度的爬取
很多网页中a标签href给的是相对路径,这里通过jsoup方便的获取了绝对路径