扫描版PDF优化—ComicEnhancePro+Acrobat DC(重排版+去噪+文字处理+二值/灰度化+目录+OCR文字识别)

目录

前言

一、待解决的问题

二、使用的工具

三、操作步骤

1.导出图片

2.图片处理

1. 图片分类

2. 图像处理

 3、图片汇总

3、生成PDF并OCR

4、目录生成

PDF网盘分享链接



前言

在网上找了几本PDF图书资源,奈何都是原始扫描版,纸张薄导致透印且背景灰色,文字也不太清晰。折腾一下午大概能出来效果不错的成品了,记录一下供以后使用。

一、待解决的问题

PDF存在背透、背景灰暗、不规则线条的问题,部分页面还有版面倾斜的现象,如下图所示

原始文档效果

 另外我个人需要文档内搜索功能,所以需要对文件OCR处理,这要求让文字更清晰、把图像二值化或灰度处理、并输出较高的分辨率

最后为文档添加较为详细的目录以方便阅读

二、使用的工具

  • Adobe Acrobat Pro DC 2020 : 图片提取,OCR
  • ComicEnhancePro: 图片裁剪、排版,图像处理
  • EditPad Lite 8:文本编辑器,编辑生成目录
  • FreePic2Pdf:挂目录

三、操作步骤

1.导出图片

Acrobat 打开文件,工具>>导出PDF>>图片 选择路径开始导出

导出图片

2.图片处理

1. 图片分类

        图片按照后面处理参数不同,先按缩略图分成彩图页、全文字正文页、带图正文页,分别存入不同文件夹

图片分类,这里彩图只有封面和封底,就放在图像类了

2. 图像处理

  • 全文字正文页面处理,参数如下

        版面:

  •  纠斜: 自动_双向, 边缘保留
  • 切边: 手动选择范围内自动选择, 不计黑边, 忽略斑点直径: 08, 斑点补偿

  • DPI=600

  • 页面大小: 787x1092mm, 1/16

        图像:

  • 黑白文字
  • 变细01
  • 高斯模糊半径: 1.2
  • 高斯锐化半径: 3, 阶数: 7
  • 多尺度细节增强: 18
  • USM锐化: 遍数=1, 数量=100, 半径=5.0, 阀值=20

        输出: 

  • Jpg质量: 80

        效果如图

处理后/处理前
  •  含图页面处理,直接使用黑白文字选项会让图片一片黑,需要使用曲线去背景,参数如下

        版面:

  • 纠斜: 自动_横排, 边缘保留
  • 切边: 手动选择范围内自动选择, 不计黑边, 强力去背景, 忽略斑点直径: 08, 斑点补偿
  • DPI=600
  • 页面大小: 787x1092mm, 1/16, 内容框对齐方式: 水平=不变, 垂直=居中

        图像:

  • 曲线调节: X1=150, Y1=0, X2=110, Y2=255
  • 多尺度细节增强: 20
  • 高斯模糊半径: 1.2
  • 高斯锐化半径: 3, 阶数: 7
  • USM锐化: 遍数=1, 数量=100, 半径=5.0, 阀值=20

        其它:

  • 色彩设置: 色彩数=32级灰度, 调色板量化算法=神经网络
  • Jpg质量: 80

        效果如图

        

处理后/处理前

 3、图片汇总

    把上面生成的新图片汇总到一个文件夹中,方便后面使用

3、生成PDF并OCR

  • 生成PDF

        Acrobat 工具>>创建PDF>>从多个文件 选中上一步中生成的图片,生成PDF并检查是否存在错误

  • OCR

        工具>>扫描及OCR>>识别文本>>可编辑的文本和图像,识别完成后即可进行全文搜索

4、目录生成

把OCR后的目录页面复制到EditPad Lite中

检查发现存在以下问题

  • “1”被识别成l(小写L)或I(大写i),“0”被识别成“O”
  • 每章的第一节前没有编号
  • 多行成一行
  • 章节号与章节名分开
  • 章节内容内换行
  • 页码与内容间缺空格
  • 需要tab来为目录提供层级

需要达到的层级关系

|—第1篇

|——第1章

|        |——1.1

|        |        |——1.1.1

|        |        |        |——案例研究/新闻摘录/参考资料

|        |        |——1.1.2

                        ......

|        |——内容提要/关键概念/复习题...

                        ......

|—第2篇

|——第4章

|        |——4.1

                        ......

解决方法及效果如下

  1. 替换成正确的“0”“1”: [lI] —> 1  O —> 0
  2. 删除所有空格
  3. 添加缺失编号:(第(\d+)章.+\r\n) —> \1\2.1
  4. 合并章节号与章节名:(第\d+[篇/章])\r\n(.+)  —> \1 \2 
  5. 合并行拆分1: (?<=[\u4e00-\u9fff])(\d+(\.\d+)+([\u4e00-\u9fff].+)) —> \r\n\3
  6. 合并行拆分2: (?<!^)(第\d+[章篇].+) —> \r\n\1
  7. 第二层前添加tab*1:(第(\d+)章.+\r\n) —> \t\1
  8. 第三层前添加tab*2:^((\d+\.\d+[^\.]|[内关复快问].+).+\r\n) —> \t\t\1
  9. 第四层前添加tab*3:^(\d+.+\r\n) —> \t\t\t\1
  10. 第五层前添加tab*4:^([新参案].{3})(.+) —> \t\t\t\t\1 \2
  11. 在页码前添加tab:(\d+)$ —> \t\1
  12. 开头添加其它页面目录:封面\扉页\出版信息\献词\作者介绍\序\前言\学习指南图\目录
目录制作

生成的目录保存为txt文件

FreePic2Pdf>>更改PDF>>往PDF挂书签 分别选择PDF文件和目录文件,点击开始,跳出成功信息即可


目录

前言

一、待解决的问题

二、使用的工具

三、操作步骤

1.导出图片

2.图片处理

1. 图片分类

2. 图像处理

 3、图片汇总

3、生成PDF并OCR

4、目录生成


  • 9
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值