扫描版PDF优化—ComicEnhancePro+Acrobat DC（重排版+去噪+文字处理+二值/灰度化+目录+OCR文字识别）

satangele

已于 2023-04-24 15:59:45 修改

阅读量8.3k

点赞数 15

文章标签： pdf 图像处理正则表达式

于 2023-04-24 06:57:58 首次发布

本文链接：https://blog.csdn.net/satangele/article/details/130330951

版权

目录

前言

一、待解决的问题

二、使用的工具

三、操作步骤

1.导出图片

2.图片处理

1. 图片分类

2. 图像处理

3、图片汇总

3、生成PDF并OCR

4、目录生成

PDF网盘分享链接

前言

在网上找了几本PDF图书资源，奈何都是原始扫描版，纸张薄导致透印且背景灰色，文字也不太清晰。折腾一下午大概能出来效果不错的成品了，记录一下供以后使用。

一、待解决的问题

PDF存在背透、背景灰暗、不规则线条的问题，部分页面还有版面倾斜的现象，如下图所示

另外我个人需要文档内搜索功能，所以需要对文件OCR处理，这要求让文字更清晰、把图像二值化或灰度处理、并输出较高的分辨率

最后为文档添加较为详细的目录以方便阅读

二、使用的工具

Adobe Acrobat Pro DC 2020 ：图片提取，OCR
ComicEnhancePro：图片裁剪、排版，图像处理
EditPad Lite 8：文本编辑器，编辑生成目录
FreePic2Pdf：挂目录

三、操作步骤

1.导出图片

Acrobat 打开文件，工具>>导出PDF>>图片选择路径开始导出

2.图片处理

1. 图片分类

图片按照后面处理参数不同，先按缩略图分成彩图页、全文字正文页、带图正文页，分别存入不同文件夹

2. 图像处理

全文字正文页面处理，参数如下

        版面：

纠斜: 自动_双向, 边缘保留

切边: 手动选择范围内自动选择, 不计黑边, 忽略斑点直径: 08, 斑点补偿

DPI=600

页面大小: 787x1092mm, 1/16

        图像：

黑白文字
变细01
高斯模糊半径: 1.2
高斯锐化半径: 3, 阶数: 7
多尺度细节增强: 18
USM锐化: 遍数=1, 数量=100, 半径=5.0, 阀值=20

        输出：

Jpg质量: 80

效果如图

含图页面处理，直接使用黑白文字选项会让图片一片黑，需要使用曲线去背景，参数如下

        版面：

纠斜: 自动_横排, 边缘保留
切边: 手动选择范围内自动选择, 不计黑边, 强力去背景, 忽略斑点直径: 08, 斑点补偿
DPI=600
页面大小: 787x1092mm, 1/16, 内容框对齐方式: 水平=不变, 垂直=居中

        图像：

曲线调节: X1=150, Y1=0, X2=110, Y2=255
多尺度细节增强: 20
高斯模糊半径: 1.2
高斯锐化半径: 3, 阶数: 7
USM锐化: 遍数=1, 数量=100, 半径=5.0, 阀值=20

        其它：

色彩设置: 色彩数=32级灰度, 调色板量化算法=神经网络
Jpg质量: 80

效果如图

`3、图片汇总`

把上面生成的新图片汇总到一个文件夹中，方便后面使用

3、生成PDF并OCR

生成PDF

Acrobat 工具>>创建PDF>>从多个文件选中上一步中生成的图片，生成PDF并检查是否存在错误

工具>>扫描及OCR>>识别文本>>可编辑的文本和图像，识别完成后即可进行全文搜索

4、目录生成

把OCR后的目录页面复制到EditPad Lite中

检查发现存在以下问题

“1”被识别成l(小写L)或I(大写i)，“0”被识别成“O”
每章的第一节前没有编号
多行成一行
章节号与章节名分开
章节内容内换行
页码与内容间缺空格
需要tab来为目录提供层级

需要达到的层级关系

|—第1篇

|——第1章

|        |——1.1

| | |——1.1.1

| | | |——案例研究/新闻摘录/参考资料

| | |——1.1.2

......

|        |——内容提要/关键概念/复习题...

......

|—第2篇

|——第4章

|        |——4.1

......

解决方法及效果如下

替换成正确的“0”“1”: [lI] —> 1 O —> 0
删除所有空格
添加缺失编号：(第(\d+)章.+\r\n) —> \1\2.1
合并章节号与章节名：(第\d+[篇/章])\r\n(.+) —> \1 \2
合并行拆分1： (?<=[\u4e00-\u9fff])(\d+(\.\d+)+([\u4e00-\u9fff].+)) —> \r\n\3
合并行拆分2： (?<!^)(第\d+[章篇].+) —> \r\n\1
第二层前添加tab*1：(第(\d+)章.+\r\n) —> \t\1
第三层前添加tab*2：^((\d+\.\d+[^\.]|[内关复快问].+).+\r\n) —> \t\t\1
第四层前添加tab*3：^(\d+.+\r\n) —> \t\t\t\1
第五层前添加tab*4：^([新参案].{3})(.+) —> \t\t\t\t\1 \2
在页码前添加tab：(\d+)$ —> \t\1
开头添加其它页面目录：封面\扉页\出版信息\献词\作者介绍\序\前言\学习指南图\目录