Java爬虫（二）-Jsoup

最新推荐文章于 2024-06-20 15:02:17 发布

qq_40860185

最新推荐文章于 2024-06-20 15:02:17 发布

阅读量235

点赞数

分类专栏： Java爬虫文章标签： maven 爬虫 java

本文链接：https://blog.csdn.net/qq_40860185/article/details/118462179

版权

本文介绍了如何在Java中使用Jsoup库进行HTML解析。内容包括在pom.xml中导入Jsoup依赖，以及如何从URL、文件中解析HTML，通过DOM或CSS选择器获取所需数据。

摘要由CSDN通过智能技术生成

定义：

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。
jsoup的主要功能如下

从一个URL，文件或字符串中解析HTML；

使用DOM或CSS选择器来查找、取出数据；

可操作HTML元素、属性、文本；( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )

一、导入pom.xml

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
    <!--Jsoup-->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.11.3</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/junit/junit -->
    <!--测试-->
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
        <scope>test</scope>
    </dependency>
    <!-- https://mvnrepository.com/artifact/commons-io/commons-io -->
    <!--操作文件-->
    <dependency>
        <groupId>commons-io</groupId>
        <artifactId>commons-io</artifactId>
        <version>2.4</version>
    </dependency>
    <!-- https://mvnrepository.com/artifact/org.apache.commons/commons-lang3 -->
    <!--操作字符串-->
    <dependency>
        <groupId>org.apache.commons</groupId>
        <artifactId>commons-lang3</artifactId>
        <version>3.4</version>
    </dependency>

最低0.47元/天解锁文章

qq_40860185

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java爬虫（二）-Jsoup

定义：jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。jsoup的主要功能如下从一个URL，文件或字符串中解析HTML；使用DOM或CSS选择器来查找、取出数据；可操作HTML元素、属性、文本；( Jsoup一般用于解析爬到的数据并存储, 很少用到操作 )一、导入pom.xml 
复制链接

扫一扫

专栏目录