java + itextpdf + 文本内容错乱
背景: 最近处理了一批PDF,发现了一个令人困惑的问题,那就是一小部分PDF文件通过itext的SDK读取出来之后,出现部分字符乱码甚至文本完全乱序,但肉眼看到的完全是正常的。后面用鼠标双击或全选页面,发现复制出来的内容和SDK读取的内容一样出现这些奇怪的问题,这个时候该怎么办呢?普通方法换个别的SDK估计不太行,也不太清楚这个PDF到底是如何生成的,正好项目中有图片OCR的功能,随即用这个方法尝试了下。
博客内容精选:
1、Servlet请求体重复读&修改新姿势
2、根据请求获取后端接口详情
3、封装Springboot项目的starter-sdk新方式
4、Springboot全局处理完整版
5、itextpdf读取文本时上下行位置错乱
6、JAVA读取PDF表格内容
转图片其实有两种解决方案:
1、直接将PDF转换为图片列表(跳转)
2、尝试看PDF是否有图片页
方法1将在其他博客说明,这里通过debug查看PDF解析的数据,发现除了抽取到问题文书数据外,同时获得同等页数的图片对象,随即将图片数据写出到本地文件,发现这些图片内容和PDF文件肉眼看到的内容完全一致。这下,就不用折腾PDF2IMAGE的事情了,但是新的问题出现了,这种随机异常的背景下,怎样知道文本内容出现问题了呢?
判断标准有两个:
1、抽取的PDF图片对象个数和PDF页数保持一致
2、PDF图片对象大小和PDF单页大小几乎一致
下面将用伪代码简述处理过程:
// 本地PDF文件读取入口类
PdfReader reader = new PdfReader(localFile.getAbsolutePath());
int pageNum = reader.getNumberOfPages();
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
// 自定义监听器,具体内容见下述代码
PdfContentReader listener = new PdfContentReader(pageNum);
// 仅简单记录首页大小
float pageSize = 0;
for (int page = 1; page <= pageNum; page++) {
parser.processContent(page, listener);
if (page == 1) {
Rectangle rectangle = reader.getPageSize(1);
// 简单获取页面大小
pageSize = rectangle.getHeight() * rectangle.getWidth();
}
}
reader.close();
public class PdfContentReader implements RenderListener {
private final int pages;
private final List<ImageRenderInfo> renderImages = new ArrayList<>();
public PdfContentReader(int pageNum) {
pages = pageNum;
}
@Override
public void beginTextBlock() {
}
@Override
public void renderText(TextRenderInfo textRenderInfo) {
}
@Override
public void endTextBlock() {
}
@Override
public void renderImage(ImageRenderInfo imageRenderInfo) {
renderImages.add(imageRenderInfo);
}
/**
* @param pageSize 页面大小
* @return 是否有图片覆盖
*/
private boolean checkCoverImage(float pageSize) {
// 部分PDF文书存在文字和图片共存场景,且图片为视眼看到的文书内容,但获取的文本信息可能顺序或内容错乱或有误,此时以图片内容为准
return renderImages.size() == pages && Math.abs(renderImages.get(0).getArea() - pageSize) < 10;
}
}
总结:
1、本处只是提供简单的异常判断逻辑,后续OCR内容请自行处理
2、关于itext处理PDF的其他内容,可自行参考其他博客内容
3、其他读取混乱场景如:使用文本模板,核心字段皆为图片,可以通过判断单页图片数量,进而转为单个图片OCR处理。