在爬虫开发过程中发现使用jsoup的select方法是发现:
当使用Elements.select()方法时,碰到相同元素时,会跳过相同元素。
而使用document.select()方法是,不会出现上述情况。
例:
String html = "<html>\n" +
" <head></head>\n" +
" <body>\n" +
" <img border=\"1\" alt=\"\" src=\"/uploads/allimg/160720/204KSV4-0.jpg\" width=\"450\" height=\"401\">\n" +
" <img border=\"1\" alt=\"\" src=\"http://www.qiwen8.com/uploads/allimg/160720/204KR450-2.jpg\" width=\"423\" height=\"590\"> \n" +
" <img border=\"1\" alt=\"\" src=\"/uploads/allimg/160720/204KSV4-0.jpg\" width=\"450\" height=\"401\">\n" +
" </body>\n" +
"</html>";
Document doc = Jsoup.parse(html);
System.out.println(doc.select("img").size());
Elements body = doc.select("body");
System.out.println(body.select("img").size());
控制台输出:
3
2
上面的html中第一个img标签和第3个img标签元素属于重复元素。
一直不明白为什么结果输出不一样,后来去看了源码
Elements调用的select()方法
public static Elements select(String query, Iterable<Element> roots) {
Validate.notEmpty(query);
Validate.notNull(roots);
Evaluator evaluator = QueryParser.parse(query);
LinkedHashSet elements = new LinkedHashSet();
Iterator var4 = roots.iterator();
while(var4.hasNext()) {
Element root = (Element)var4.next();
elements.addAll(select((Evaluator)evaluator, (Element)root));
}
return new Elements(elements);
}
可以看到中间是用HashSet储存的元素 会过滤掉重复元素。
而document调用的select方法,最后的代码如下
public static Elements collect(Evaluator eval, Element root) {
Elements elements = new Elements();
(new NodeTraversor(new Collector.Accumulator(root, elements, eval))).traverse(root);
return elements;
}
对于这个类的结构不是很清楚,估计没有限制重复元素。
这个问题在爬虫开发过程中,可能因为重复元素导致数据扒取不完整,甚至出现bug。