java jsoup解析_3使用Jsoup解析Java中HTML文件的示例

最新推荐文章于 2024-08-09 03:43:55 发布

dnc8371

最新推荐文章于 2024-08-09 03:43:55 发布

阅读量394

点赞数

文章标签： java js web javascript html ViewUI

原文链接：https://www.javacodegeeks.com/2014/09/3-examples-of-parsing-html-file-in-java-using-jsoup.html

版权

本文介绍了如何使用Jsoup库在Java中解析HTML。Jsoup支持从URL、文件和字符串中抓取并解析HTML，提供DOM、CSS选择器和类似jQuery的方法来提取和处理数据。文章通过三个示例展示了如何解析HTML字符串、从互联网下载HTML以及解析本地HTML文件。

摘要由CSDN通过智能技术生成

java jsoup解析

HTML是Web的核心，无论您是通过JavaScript，JSP，PHP，ASP或任何其他Web技术动态生成的，您在Internet上看到的所有页面都是基于HTML的。您的浏览器实际上是解析HTML并为您呈现它。但是，如果需要解析HTML文档并查找某些元素，标签，属性或检查特定元素是否存在，该怎么办，所有这些操作都使用Java程序完成。

如果您从事Java编程已经有几年了，我相信您已经使用DOM和SAX之类的解析器完成了一些XML解析工作。具有讽刺意味的是，很少有需要从核心Java应用程序解析HTML文档的情况，该应用程序不包括Servlet和其他Java Web技术。更糟的是，核心JDK中也没有HTTP或HTML库。这就是为什么在解析HTML文件时 ，许多Java程序员不得不看Google以了解如何在Java中获取HTML标签的价值。

当我需要时，我确定会有一个开源库可以为我实现该功能，但不知道它像JSoup一样出色且功能丰富。它不仅提供了读取和解析HTML文档的支持，而且还允许您从HTML文件，其属性， JQuery样式的CSS类中提取任何元素，同时还允许您对其进行修改。您可以使用Jsoup对HTML文档执行任何操作。

在本文中，我们将解析和HTML文件，并找出title和heading标签的值。通过使用Java解析Google主页，我们还将看到从文件以及任何URL或Internet下载和解析HTML的示例。

Jsoup是用于处理实际HTML的开源Java库。它提供了使用DOM，CSS和类似jquery的最佳方法来提取和处理数据的非常方便的API。 Jsoup实现WHATWG HTML5规范，并将HTML解析为与现代浏览器（例如Chrome和Firefox）相同的DOM。这是jsoup库的一些有用的功能：

Jsoup可以从URL，文件或字符串中抓取并解析HTML
Jsoup可以使用DOM遍历或CSS选择器来查找和提取数据
Jsoup允许您操纵HTML元素，属性和文本
Jsoup针对安全的白名单提供干净的用户提交的内容，以防止XSS攻击
Jsoup还可以输出整洁HTML

Jsoup旨在处理现实世界中发现的各种HTML，其中包括经过正确验证HTML，以完成不验证标签的收集。 Jsoup的核心优势之一是它非常强大。

在此Java HTML解析教程中，我们将看到使用jsoup在Java中解析和遍历HTML文档的三个不同示例。在第一个示例中，我们将解析一个HTML String ，其内容均为标记，以Java中的String文字形式出现。在第二个示例中，我们将从网上下载HTML文档，在第三个示例中，我们将加载我们自己的示例HTML文件login.html进行解析。此文件是一个示例HTML文档，该文档在包含HTML表单的正文部分中包含标题标签和div。它具有输入标签来捕获用户名和密码，并提供提交和重置按钮以采取进一步措施。这是可以验证的正确HTML，即所有标签和属性均已正确关闭。这是我们的示例HTML文件的外观：

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
        <title>Login Page</title>
    </head>
    <body>
        <div id="login" class="simple" >
            <form action="login.do">
                Username : <input id="username" type="text" /><br>
                Password : <input id="password" type="password" /><br>
                <input id="submit" type="submit" />
                <input id="reset" type="reset" />
            </form>
        </div>
    </body>
</html>

使用Jsoup进行HTML解析非常简单，只需调用静态方法Jsoup.parse（）并将HTML字符串传递给它即可。 JSoup提供了几种重载的parse（）方法，用于从String，文件，基本URI，URL和InputStream中读取HTML文件。您还可以指定字符编码以正确读取HTML文件（如果它们不是“ UTF-8”格式）。

parse（String html）方法将输入HTML解析为新的Document。在Jsoup中，Document扩展Element扩展Node。同样，TextNode扩展了Node。只要您传递非null字符串，就可以保证您使用包含（至少）head和body元素的Document进行了成功，明智的解析。拥有文档后，您可以通过在Document及其父类Element和Node中调用适当的方法来获取所需的数据。

这是我们完整的Java程序，用于解析HTML字符串，从Internet下载HTML文件和来自本地文件系统HTML文件。为了运行该程序，您可以使用Eclipse IDE，也可以仅使用任何IDE或命令提示符。在Eclipse中，这非常简单，只需复制此代码，创建一个新的Java项目，右键单击src包并将其粘贴。 Eclipse将负责创建具有相同名称的正确的程序包和Java源文件，因此绝对省事。如果您已经有一个Sample Java项目，那么这只是一步。以下Java程序显示了3个解析和遍历HTML文件的示例。在第一个示例中，我们直接解析带有html内容的String ，在第二个示例中，我们解析从URL下载HTML文件，在第三个示例中，我们从本地文件系统加载并解析HTML文档。

import java.io.File;
import java.io.IOException;
 
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
 
/**
* Java Program to parse/read HTML documents from File using Jsoup library.
* Jsoup is an open source library which allows Java developer to parse HTML
* files and extract elements, manipulate data, change style using DOM, CSS and
* JQuery like method.
*
* @author Javin Paul
*/
public class HTMLParser{
 
    public static void main(String args[]) {
 
        // Parse HTML String using JSoup library
        String HTMLSTring = "<!DOCTYPE html>"
                + "<html>"
                + "<head>"
                + "<title>JSoup Example</title>"
                + "</head>"
                + "<body>"
                + "<table><tr><td><h1>HelloWorld</h1></tr>"
                + "</table>"
                + "</body>"
                + "</html>";
 
        Document html = Jsoup.parse(HTMLSTring);
        String title = html.title();
        String h1 = html.body().getElementsByTag("h1").text();
 
        System.out.println("Input HTML String to JSoup :" + HTMLSTring);
        System.out.println("After parsing, Title : " + title);
        System.out.println("Afte parsing, Heading : " + h1);
 
        // JSoup Example 2 - Reading HTML page from URL
        Document doc;
        try {
            doc = Jsoup.connect("http://google.com/").get();
            title = doc.title();
        } catch (IOException e) {
            e.printStackTrace();
        }
 
        System.out.println("Jsoup Can read HTML page from URL, title : " + title);
 
        // JSoup Example 3 - Parsing an HTML file in Java
        //Document htmlFile = Jsoup.parse("login.html", "ISO-8859-1"); // wrong
        Document htmlFile = null;
        try {
            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } // right
        title = htmlFile.title();
        Element div = htmlFile.getElementById("login");
        String cssClass = div.className(); // getting class form HTML element
 
        System.out.println("Jsoup can also parse HTML file directly");
        System.out.println("title : " + title);
        System.out.println("class of div tag : " + cssClass);
    }
 
}

Output:
Input HTML String to JSoup :<!DOCTYPE html><html><head><title>JSoup Example</title></head><body><table><tr><td><h1>HelloWorld</h1></tr></table></body></html>
After parsing, Title : JSoup Example
Afte parsing, Heading : HelloWorld
Jsoup Can read HTML page from URL, title : Google
Jsoup can also parse HTML file directly
title : Login Page
class of div tag : simple

Jsoup HTML解析器将尽一切努力从您提供HTML创建干净的解析，而不管HTML的格式是否正确。它可以处理以下错误：
未关闭的标签（例如 Java Scala到 Java Scala ）
隐式标签（例如ega裸<td> Java很棒</ td>包裹在<table> <tr> <td>中）可靠地创建文档结构（包含头和主体以及头中仅适当元素的html）。

Jsoup是一个出色且强大的开源库，它使读取html文档，正文片段，html字符串以及直接从Web上直接解析html内容变得非常容易。