【疑难版】JAVA读取PDF出现内容混乱怎么办？

苏南(src)

已于 2023-12-04 09:12:21 修改

阅读量1.5k

点赞数 7

文章标签： java pdf

于 2023-11-29 09:20:45 首次发布

本文链接：https://blog.csdn.net/src1025/article/details/134661023

版权

文章讲述了在使用Java和itextpdf库读取PDF时遇到的文本乱序问题，通过OCR和图片识别方法解决，并提供了简单的异常判断逻辑。作者建议针对特定情况，如PDF中图片多于文本或核心字段为图片，可以考虑转换为图片进行OCR处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

java + itextpdf + 文本内容错乱

背景： 最近处理了一批PDF，发现了一个令人困惑的问题，那就是一小部分PDF文件通过itext的SDK读取出来之后，出现部分字符乱码甚至文本完全乱序，但肉眼看到的完全是正常的。后面用鼠标双击或全选页面，发现复制出来的内容和SDK读取的内容一样出现这些奇怪的问题，这个时候该怎么办呢？普通方法换个别的SDK估计不太行，也不太清楚这个PDF到底是如何生成的，正好项目中有图片OCR的功能，随即用这个方法尝试了下。

博客内容精选：
1、Servlet请求体重复读&修改新姿势
 2、根据请求获取后端接口详情
 3、封装Springboot项目的starter-sdk新方式
 4、Springboot全局处理完整版
 5、itextpdf读取文本时上下行位置错乱
 6、JAVA读取PDF表格内容

转图片其实有两种解决方案：
1、直接将PDF转换为图片列表(跳转)
2、尝试看PDF是否有图片页

方法1将在其他博客说明，这里通过debug查看PDF解析的数据，发现除了抽取到问题文书数据外，同时获得同等页数的图片对象，随即将图片数据写出到本地文件，发现这些图片内容和PDF文件肉眼看到的内容完全一致。这下，就不用折腾PDF2IMAGE的事情了，但是新的问题出现了，这种随机异常的背景下，怎样知道文本内容出现问题了呢？

判断标准有两个：
1、抽取的PDF图片对象个数和PDF页数保持一致
2、PDF图片对象大小和PDF单页大小几乎一致

下面将用伪代码简述处理过程：

// 本地PDF文件读取入口类
PdfReader reader = new PdfReader(localFile.getAbsolutePath());
int pageNum = reader.getNumberOfPages();
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
// 自定义监听器，具体内容见下述代码
PdfContentReader listener = new PdfContentReader(pageNum);
// 仅简单记录首页大小
float pageSize = 0;
for (int page = 1; page <= pageNum; page++) {
    parser.processContent(page, listener);
    if (page == 1) {
        Rectangle rectangle = reader.getPageSize(1);
        // 简单获取页面大小
        pageSize = rectangle.getHeight() * rectangle.getWidth();
    }
}
reader.close();

public class PdfContentReader implements RenderListener {
    private final int pages;

    private final List<ImageRenderInfo> renderImages = new ArrayList<>();

    public PdfContentReader(int pageNum) {
        pages = pageNum;
    }
    
    @Override
    public void beginTextBlock() {
    }
    
    @Override
    public void renderText(TextRenderInfo textRenderInfo) {
    }

    @Override
    public void endTextBlock() {

    }

    @Override
    public void renderImage(ImageRenderInfo imageRenderInfo) {
        renderImages.add(imageRenderInfo);
    }

    /**
     * @param pageSize 页面大小
     * @return 是否有图片覆盖
     */
    private boolean checkCoverImage(float pageSize) {
        // 部分PDF文书存在文字和图片共存场景,且图片为视眼看到的文书内容,但获取的文本信息可能顺序或内容错乱或有误,此时以图片内容为准
        return renderImages.size() == pages && Math.abs(renderImages.get(0).getArea() - pageSize) < 10;
    }
}