在Java中使用tabula提取PDF中的表格数据

最新推荐文章于 2025-04-11 16:39:30 发布

weixin_34075268

最新推荐文章于 2025-04-11 16:39:30 发布

阅读量8.6k

点赞数 1

文章标签： java json 开发工具

原文链接：http://www.cnblogs.com/kong90hou/p/9138219.html

版权

本文介绍了在Java中使用Tabula库来高效地提取PDF中的表格数据，对比了PdfBox的不足，并详细说明了Tabula的安装、使用方法，包括如何设置矩形区域、输出文件、提取特定页等参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：如何将pdf文件中指定的表格数据提取出来？

尝试过的工具包有：pdfbox、tabula。最终选用tabula

两种工具的比较

pdfbox

其中，pdfbox能将pdf中的内容直接提取成String，代码片段：

public static void readPdf(String path) {
    try {
        PDDocument document = PDDocument.load(new File(path));
        PDFTextStripper textStripper = new PDFTextStripper();
        textStripper.setSortByPosition(true);
        String text = textStripper.getText(document);
        System.out.println(text);
        document.close();
    } catch (IOException e) {
            e.printStackTrace();
    }
}