Java拆分多页PDF并解析

场景:

从网银上下载的交通银行回单是多页PDF,需要将每页分割再进行解析具体数据进行数据库匹配,保存与流水之间的关联关系,之后再上传至SFTP服务器中。

代码

	public static void main(String[] args) {
        File file = new File("document.pdf");
        //解析文件
        try (PDDocument document = PDDocument.load(file)) {
            // 创建 Splitter 对象并设置拆分选项
            Splitter splitter = new Splitter();
            splitter.setStartPage(1);
            splitter.setEndPage(document.getNumberOfPages());
            // 拆分 PDF 文档并保存每个页面到单独的文件中
            List<PDDocument> pages = splitter.split(document);
            for (PDDocument page : pages) {
                File f = null;
                try {
                    PDFTextStripper stripper = new PDFTextStripper();
                    String c = stripper.getText(page);
                    //不同的操作系统可能会使用不同的行尾字符(例如,Windows 使用`\r\n`,而 Linux 使用`\n`)。
                    String[] content = c.split(System.lineSeparator());
                    //保存拆分后的回单
                    page.save(new File("xxx"));
                    /*
                    
                        进行业务操作
                        
                    */
                } catch (Exception e) {
                    log.error(e);
                } finally {
                    if (Objects.nonNull(f)) {
                        FileUtil.del(f);
                    }
                }
            }
        } catch (Exception e) {
            log.error(e);
            e.printStackTrace();
        } finally {
            FileUtil.del(file);
        }
    }

注意事项:

不同的操作系统可能会使用不同的行尾字符(例如,Windows 使用 \r\n,而 Linux 使用 \n)。

你可以尝试使用 System.lineSeparator() 来获取当前环境的行尾字符,然后使用这个字符来分割你的字符串。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值