【疑难版】JAVA读取PDF出现内容混乱怎么办?

java + itextpdf + 文本内容错乱

背景: 最近处理了一批PDF,发现了一个令人困惑的问题,那就是一小部分PDF文件通过itext的SDK读取出来之后,出现部分字符乱码甚至文本完全乱序,但肉眼看到的完全是正常的。后面用鼠标双击或全选页面,发现复制出来的内容和SDK读取的内容一样出现这些奇怪的问题,这个时候该怎么办呢?普通方法换个别的SDK估计不太行,也不太清楚这个PDF到底是如何生成的,正好项目中有图片OCR的功能,随即用这个方法尝试了下。

博客内容精选:
1、Servlet请求体重复读&修改新姿势
2、根据请求获取后端接口详情
3、封装Springboot项目的starter-sdk新方式
4、Springboot全局处理完整版
5、itextpdf读取文本时上下行位置错乱
6、JAVA读取PDF表格内容

转图片其实有两种解决方案:
1、直接将PDF转换为图片列表(跳转)
2、尝试看PDF是否有图片页

方法1将在其他博客说明,这里通过debug查看PDF解析的数据,发现除了抽取到问题文书数据外,同时获得同等页数的图片对象,随即将图片数据写出到本地文件,发现这些图片内容和PDF文件肉眼看到的内容完全一致。这下,就不用折腾PDF2IMAGE的事情了,但是新的问题出现了,这种随机异常的背景下,怎样知道文本内容出现问题了呢?

判断标准有两个:
1、抽取的PDF图片对象个数和PDF页数保持一致
2、PDF图片对象大小和PDF单页大小几乎一致

下面将用伪代码简述处理过程:

// 本地PDF文件读取入口类
PdfReader reader = new PdfReader(localFile.getAbsolutePath());
int pageNum = reader.getNumberOfPages();
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
// 自定义监听器,具体内容见下述代码
PdfContentReader listener = new PdfContentReader(pageNum);
// 仅简单记录首页大小
float pageSize = 0;
for (int page = 1; page <= pageNum; page++) {
    parser.processContent(page, listener);
    if (page == 1) {
        Rectangle rectangle = reader.getPageSize(1);
        // 简单获取页面大小
        pageSize = rectangle.getHeight() * rectangle.getWidth();
    }
}
reader.close();
public class PdfContentReader implements RenderListener {
    private final int pages;

    private final List<ImageRenderInfo> renderImages = new ArrayList<>();

    public PdfContentReader(int pageNum) {
        pages = pageNum;
    }
    
    @Override
    public void beginTextBlock() {
    }
    
    @Override
    public void renderText(TextRenderInfo textRenderInfo) {
    }

    @Override
    public void endTextBlock() {

    }

    @Override
    public void renderImage(ImageRenderInfo imageRenderInfo) {
        renderImages.add(imageRenderInfo);
    }

    /**
     * @param pageSize 页面大小
     * @return 是否有图片覆盖
     */
    private boolean checkCoverImage(float pageSize) {
        // 部分PDF文书存在文字和图片共存场景,且图片为视眼看到的文书内容,但获取的文本信息可能顺序或内容错乱或有误,此时以图片内容为准
        return renderImages.size() == pages && Math.abs(renderImages.get(0).getArea() - pageSize) < 10;
    }
}

总结:
1、本处只是提供简单的异常判断逻辑,后续OCR内容请自行处理
2、关于itext处理PDF的其他内容,可自行参考其他博客内容
3、其他读取混乱场景如:使用文本模板,核心字段皆为图片,可以通过判断单页图片数量,进而转为单个图片OCR处理。

  • 7
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值