爬虫数据清洗之java的xpath表达式

最新推荐文章于 2024-05-02 10:55:42 发布

姜姜攻城狮

最新推荐文章于 2024-05-02 10:55:42 发布

阅读量244

点赞数

分类专栏： Java 文章标签： xpath 爬虫数据挖掘 java

本文链接：https://blog.csdn.net/jiangyanchen0/article/details/116706570

版权

Java 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

做爬虫的时候数据的清洗也是一大重点，往往绕不开三种处理办法
1.正则表达式
2.xpath表达式
3.json

关于java爬虫发送请求问题

这篇文章主要示范一下java引用xpath表达式的基本方法，在解析html文件的时候会用到，前提需要有一定xpath基础

xpath解析html页面，需要用到第三方包，借助maven项目下载

    <dependency>
        <groupId>cn.wanghaomiao</groupId>
        <artifactId>JsoupXpath</artifactId>
        <version>0.3.2</version>
    </dependency>

    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.3</version>
    </dependency>

然后就可以调用了。

主要分为以下几步：
1.把html转为document对象
2.把document对象转为xml对象
3.写好xpath表达式
4.xml对象利用表达式解析出数据，返回结果为列表

public static void test(String html) throws XpathSyntaxErrorException {
        Document doc = Jsoup.parse(html);
        JXDocument jxd = new JXDocument(doc);  // 转为xml
        String xpath = "//div/....";
        List result = jxd.selN(xpath);
    }

姜姜攻城狮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫数据清洗之java的xpath表达式

做爬虫的时候数据的清洗也是一大重点，往往绕不开三种处理办法1.正则表达式2.xpath表达式3.json关于java爬虫发送请求问题这篇文章主要示范一下java引用xpath表达式的基本方法，在解析html文件的时候会用到，前提需要有一定xpath基础xpath解析html页面，需要用到第三方包，借助maven项目下载 <dependency> <groupId>cn.wanghaomiao</groupId> &lt
复制链接

扫一扫