关于jsoup的select（）

最新推荐文章于 2021-07-30 16:41:11 发布

lf_breeze

最新推荐文章于 2021-07-30 16:41:11 发布

阅读量1.1k

点赞数

分类专栏：爬虫文章标签：爬虫 jsoup

本文链接：https://blog.csdn.net/lf_breeze/article/details/51981201

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在爬虫开发过程中发现使用jsoup的select方法是发现：

当使用Elements.select()方法时，碰到相同元素时，会跳过相同元素。

而使用document.select()方法是，不会出现上述情况。

例：

 String html = "<html>\n" +
             " <head></head>\n" +
             " <body>\n" +
             "  <img border=\"1\" alt=\"\" src=\"/uploads/allimg/160720/204KSV4-0.jpg\" width=\"450\" height=\"401\">\n" +
             "  <img border=\"1\" alt=\"\" src=\"http://www.qiwen8.com/uploads/allimg/160720/204KR450-2.jpg\" width=\"423\" height=\"590\"> \n" +
             "   <img border=\"1\" alt=\"\" src=\"/uploads/allimg/160720/204KSV4-0.jpg\" width=\"450\" height=\"401\">\n" +
             " </body>\n" +
             "</html>";
        Document doc = Jsoup.parse(html);
        System.out.println(doc.select("img").size());
        Elements body = doc.select("body");
        System.out.println(body.select("img").size());

控制台输出：

3
2

上面的html中第一个img标签和第3个img标签元素属于重复元素。

一直不明白为什么结果输出不一样，后来去看了源码

Elements调用的select（）方法

  public static Elements select(String query, Iterable<Element> roots) {
        Validate.notEmpty(query);
        Validate.notNull(roots);
        Evaluator evaluator = QueryParser.parse(query);
        LinkedHashSet elements = new LinkedHashSet();
        Iterator var4 = roots.iterator();

        while(var4.hasNext()) {
            Element root = (Element)var4.next();
            elements.addAll(select((Evaluator)evaluator, (Element)root));
        }

        return new Elements(elements);
    }

可以看到中间是用HashSet储存的元素会过滤掉重复元素。

而document调用的select方法，最后的代码如下

 public static Elements collect(Evaluator eval, Element root) {
        Elements elements = new Elements();
        (new NodeTraversor(new Collector.Accumulator(root, elements, eval))).traverse(root);
        return elements;
    }

对于这个类的结构不是很清楚，估计没有限制重复元素。

这个问题在爬虫开发过程中，可能因为重复元素导致数据扒取不完整，甚至出现bug。