Java爬虫抓取网页数据之JsoupXpath

最新推荐文章于 2024-07-11 08:52:03 发布

凌晨之星

最新推荐文章于 2024-07-11 08:52:03 发布

阅读量806

点赞数

本文链接：https://blog.csdn.net/qq_43910202/article/details/105034470

版权

首先导入依赖：

<dependency>
            <groupId>cn.wanghaomiao</groupId>
            <artifactId>JsoupXpath</artifactId>
            <version>2.2</version>
        </dependency>

这是xpath的基本形式，自己可以根据不同的网页，加上合适的条件。

这个红箭头是网页copy的copy的xpath的内容，替换这个地方就行。

按F12到网页的调试界面，找到对应内容，右击对应代码处，选择copy，copy xpath。

这是我代码的样例，可以按照这个形式进行修改。

 public static String rules10(String html){
        String result = "";
        String xpath="//*[@id=\"detail\"]/div[2]/div/div[2]/div/div[3]/div/p[37]/span/text()[1]";
        JXDocument jxDocument = new JXDocument(html);
        List<Object> rs = jxDocument.sel(xpath);
        for (Object o:rs){
            if (o instanceof Element){
                int index = ((Element) o).siblingIndex();
                System.out.println(index);
            }
            result = o.toString();
        }
       if(result.contains("：")){
           result=result;
           result = Pattern.compile("[^\u4e00-\u9fa5||、]").matcher(result).replaceAll("");
           result = Pattern.compile("[项目联系电话人邮箱方式代理负责转]").matcher(result).replaceAll("");
           if(result.length()>3){
               result ="";
           }
       }else{
           result="";
       }
        return  result;
    }

小结：xpath有可能会提示这个方法已经过时，别担心还是可以用的，网页抓取，有可能会遇到比较难抓取数据的网页，可以试试这种方法。

凌晨之星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java爬虫抓取网页数据之JsoupXpath

首先导入依赖：<dependency> <groupId>cn.wanghaomiao</groupId> <artifactId>JsoupXpath</artifactId> <version>2.2</version> ...
复制链接

扫一扫