关于jsoup的select()

在爬虫开发过程中发现使用jsoup的select方法是发现:

当使用Elements.select()方法时,碰到相同元素时,会跳过相同元素。

而使用document.select()方法是,不会出现上述情况。


例:

 String html = "<html>\n" +
             " <head></head>\n" +
             " <body>\n" +
             "  <img border=\"1\" alt=\"\" src=\"/uploads/allimg/160720/204KSV4-0.jpg\" width=\"450\" height=\"401\">\n" +
             "  <img border=\"1\" alt=\"\" src=\"http://www.qiwen8.com/uploads/allimg/160720/204KR450-2.jpg\" width=\"423\" height=\"590\"> \n" +
             "   <img border=\"1\" alt=\"\" src=\"/uploads/allimg/160720/204KSV4-0.jpg\" width=\"450\" height=\"401\">\n" +
             " </body>\n" +
             "</html>";
        Document doc = Jsoup.parse(html);
        System.out.println(doc.select("img").size());
        Elements body = doc.select("body");
        System.out.println(body.select("img").size());
控制台输出:

3
2

上面的html中第一个img标签和第3个img标签元素属于重复元素。

一直不明白为什么结果输出不一样,后来去看了源码

Elements调用的select()方法

  public static Elements select(String query, Iterable<Element> roots) {
        Validate.notEmpty(query);
        Validate.notNull(roots);
        Evaluator evaluator = QueryParser.parse(query);
        LinkedHashSet elements = new LinkedHashSet();
        Iterator var4 = roots.iterator();

        while(var4.hasNext()) {
            Element root = (Element)var4.next();
            elements.addAll(select((Evaluator)evaluator, (Element)root));
        }

        return new Elements(elements);
    }
可以看到中间是用HashSet储存的元素 会过滤掉重复元素。

而document调用的select方法,最后的代码如下

 public static Elements collect(Evaluator eval, Element root) {
        Elements elements = new Elements();
        (new NodeTraversor(new Collector.Accumulator(root, elements, eval))).traverse(root);
        return elements;
    }
对于这个类的结构不是很清楚,估计没有限制重复元素。



这个问题在爬虫开发过程中,可能因为重复元素导致数据扒取不完整,甚至出现bug。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值