下载（导出）pdf模板文件（比如：审批单），报错：Invalid nested tag * found, expected closing tag *

最新推荐文章于 2024-02-01 10:33:16 发布

云南吴小黑

最新推荐文章于 2024-02-01 10:33:16 发布

阅读量1.5k

点赞数

分类专栏： itextpdf html转xhtml格式化文章标签： html java

本文链接：https://blog.csdn.net/qq_37967380/article/details/125517329

版权

itextpdf 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

html转xhtml格式化

1 篇文章 0 订阅

订阅专栏

该博客介绍了在遇到HTML格式错误导致的导出PDF失败问题时，如何利用Jsoup进行格式化和修复。首先，通过引入Jsoup库，然后读取HTML文件内容，使用Jsoup的parse方法格式化HTML，最后通过Tidy工具将其转换为严格的XHTML。此方法有助于解决丢失结束标签等HTML格式问题。

摘要由CSDN通过智能技术生成

前言，接着上一篇（下载（导出）pdf模板文件（比如：审批单））；
报错原因：html格式有误，结束标签丢失（可能根据实际情况，确认html也是正确的，但是还是会报这个错）；
解决思路：在拿到html内容时，通过jsoup格式化html内容；

pom引入jsoup包

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version>
</dependency>

在java代码中实现html格式化

/**
 * 将html 转换成为严格的XHTML
 */
public class Html2Xhtml {

    /**
     * 转化类
     *
     * @param htmlPath  html文件输入路径(带文件名称)
     * @param xhtmlPath xhtml文件输入路径(带文件名称)
     * @return
     */
    public static String html2Xhtml(String htmlPath, String xhtmlPath) {
        if (StringUtils.isEmpty(htmlPath)) {
            return null;
        }

        String path = null;
        try (FileInputStream fin = new FileInputStream(htmlPath)) {
            ByteArrayOutputStream byteArrayOut = new ByteArrayOutputStream();
            int data = -1;
            while ((data = fin.read()) != -1) {
                byteArrayOut.write(data);
            }
            fin.close();

            String html = byteArrayOut.toString("UTF-8");
            //System.out.println("原始HTML：" + html);

            String newHtml = formatHtml(html);
            //System.out.println("格式化后HTML：" + newHtml);

            byte[] htmlFileData = newHtml.getBytes(StandardCharsets.UTF_8);
            byteArrayOut.close();

            ByteArrayInputStream tidyInput = new ByteArrayInputStream(htmlFileData);
            ByteArrayOutputStream tidyOut = new ByteArrayOutputStream();
            Tidy tidy = new Tidy();
            tidy.setInputEncoding("UTF-8");
            tidy.setOutputEncoding("UTF-8");
            tidy.setShowWarnings(false);
            tidy.setIndentContent(true);
            tidy.setSmartIndent(true);
            tidy.setIndentAttributes(false);
            tidy.setMakeClean(true);
            tidy.setQuiet(true);
            tidy.setWord2000(true);
            tidy.setXHTML(true);
            tidy.setErrout(new PrintWriter(System.out));
            tidy.parse(tidyInput, tidyOut);
            tidyInput.close();

            tidyOut.writeTo(new FileOutputStream(xhtmlPath));
            tidyOut.flush();
            tidyOut.close();

            path = xhtmlPath;
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
            path = null;
        }

        return path;
    }


    /**
     * 格式化html
     *
     * 报错代码：Invalid nested tag *** found, expected closing tag ***
     * 报错原因：html转xhtml过程中，标签没有闭合
     * 解决思路：通过jsoup格式化html
     * @param html
     * @return
     */
    private static String formatHtml(String html) {
        Document document = Jsoup.parse(html);
        document.outputSettings().syntax(Document.OutputSettings.Syntax.xml);
        document.outputSettings().escapeMode(Entities.EscapeMode.xhtml);
        return document.html();
    }

}