PDF文件转换为HTML文件

推荐使用 pdf2htmlEX(因为确实做的比较全)

pdf2htmlEX 是一个开源工具,可以将PDF文件转换为HTML文件。你需要先安装pdf2htmlEX工具,并确保它在你的系统路径中可用。(花时间最多就是找包)

  • 安装 pdf2htmlEX

    可以从 pdf2htmlEX的GitHub页面 下载和安装。(下载特别慢)

  • 我自己创建一个库pdf2htmlEX 方便下载;(主要适用于linux环境,需要一点点编译)

  • Java window环境可以参考编译好的包(百度云盘方便大家下载)

链接:https://pan.baidu.com/s/1-w4nnuYu8OyaI61QR7AImg 

提取码:ipe4

使用Java调用 pdf2htmlEX

你可以通过Java的 RuntimeProcessBuilder 来调用 pdf2htmlEX 工具。

public static void convertPdfToHtml(String pdfPath, String htmlPath) {
        List list = new ArrayList();
        list.add("cmd.exe");
        list.add("/c");
        list.add("C:\\wp\\project\\pdf2htmlEX\\pdf2htmlEX\\pdf2htmlEX.exe");
        list.add("\"" + pdfPath + "\"");
        list.add("\"" + htmlPath + "\"");

        ProcessBuilder processBuilder = new ProcessBuilder(list);
        try {
            Process process = processBuilder.start();
            BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));
            String line = "";
            while ((line = reader.readLine()) != null) {
                System.out.println(line);
            }
            process.waitFor();
            System.out.println("PDF conversion completed.");
        } catch (IOException | InterruptedException  e ) {
            System.out.println("应用程序不存在!");
            e.printStackTrace();
        }
    }
public static void main(String[] args) {
        String pdfFilePath = "test.pdf";
        String xmlFilePath = "wptest.html";
        EscapeUtil.convertPdfToHtml(pdfFilePath,xmlFilePath);
    }

执行之后的效果 PDF文件

生成html的文件

个人有一些开源项目 北斗位置服务平台(GPS跟踪平台)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗亚方舟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值