SpringBoot 读取本地PDF文件中的内容

在工作项目中,有一个功能的需求是读取本地PDF文件,将PDF文件中的文字内容读取出来。特此记录一下。

首先,要在SpringBoot项目添加相解析PDF文件的依赖——pdfbox,完整的Maven依赖如下所示:

        <!-- PDF解析依赖 -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.28</version>
        </dependency>

下面是一个简单的演示示例:

    /**
     * @return PDF文件内容
     */
    public static String readPDFFile() {
        String textContent = "";
        //本地PDF文件路径
        String pdfFilePath = "C:\\Users\\****\\Desktop\\Test.pdf";
        try (PDDocument document = PDDocument.load(new File(pdfFilePath))) {
            PDFTextStripper stripper = new PDFTextStripper();
            textContent = stripper.getText(document);
            //控制台输出,查看解析结果
            System.out.println("======== textContent ======== \n" + textContent);
        } catch (IOException e) {
            e.printStackTrace();
        }
        return textContent;
    }

至此,SpringBoot项目读取本都PDF文件内容的功能就完成了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值