使用word和pdf进行仿书编辑的经验

weixin_30532973

于 2015-10-17 09:43:00 发布

阅读量114

点赞数

原文链接：http://www.cnblogs.com/huangweilin/p/4886955.html

版权

一、问题的提出：
    一本书扫描好，要将书中的图片转换为文字版的word文档。
二、问题的分析：
    1.文字的提取
    2.文字的编排
三、问题的解决
    1.如果用的是Adobe Acrobat 8 Professional
      那么，扫描好的pdf文档，选定某一页，
      文档→OCR文本识别→使用OCR识别文本
      弹出识别文本对话框，注意要选择好识别的主要语言
      在弹出的对话框中有个编辑按钮，点击“编辑”
      弹出一个新的对话框窗体，将OCR识别的主要语言选择为简体中文，
      然后确定后退出，在识别文本对话框中选择当前页面进行文本识别
      软件自动将该页的图片进行方位校正，然后生成文本附在图片上
      只要按下文本选择的图标，在图片上的文字上拉拽，就可选定文字。
      选定好文字复制到文本文件中，可以发现识别生成的文字、标点是
每行都隔断好的，但文字和标点有零星的地方是识别错误生成另外的字符，
需要人工校正，在文本文件中校正好后，复制到word文档中。
      如果用的是Adobe Acrobat XI Professional中文版
      那么，扫描好的pdf文档，右上的菜单导航里有个工具两字
      点击一下相关的工具菜单就整列出来，
      这列工具菜单里有个文本识别，点一下
      可以看到在本文件中、在多个文件中这两个分支项目
      点在本文件中，可以弹出和Adobe Acrobat 8 Professional一样的
      识别文本窗口，默认设置是中文(简体)，这就不用改了
      识别方式和Adobe Acrobat 8 Professional一样。
    2.word文档要调整成和原来扫描书籍中的格式，需要进行格式匹配，
比如标题的字体大小、字体类型，行间距、段落前后间距，页面纸张的大
小，一般要经过三页的调整才能定型好整体的格式。
    3.注意在word文档中，进行段落属性的设置，
      段落对话框中有个中文版式，记得更改为只打钩一个换行的第一个选项
      就是按中文习惯控制首尾字符，其他都不选。
    4.可以注意到其实印刷的书中每行的字数有个别与word文档编辑时每行
的字数对不上，要么多要么少，那么，就需要选定行进行文字属性的更改。
如果编辑时的文字，原来一行的文字符号变成两行，就选定好这些数量的文字
符号，右键选择字体，在弹出的字体对话框中选择高级选项卡，字符间距选择
紧缩，按照实际进行磅数的调整，一般是0.1磅就可以调整到位，个别要0.2磅
或者0.3磅，同理原来一行的文字符号吸纳了下一行的文字符号，则字符间距
选择加宽，把下一行的文字符号挤出这一行，一般也是0.1磅就可以调整到位，
个别要0.2磅或者0.3磅。
    5.利用pdf打印机打出不同页面尺寸的书籍pdf文档
      一般小本的书籍的尺寸在word文档的纸张大小是
         32开(13×18.4 厘米) 即宽度为13厘米，高度18.4厘米
      那么在编辑word文档的时候就要在页面设置里把纸张大小设为32开
      对应的页边距也要调整好，和原纸书籍一致，比如
      上：1.5厘米，下1.5厘米
      左：1.3厘米，右1.3厘米
      装订线：0厘米
      pdf打印机属性里是没有32开纸张类型，要自行添加设定
      Adobe PDF文档属性窗口中的Adobe PDF设置
      在Adobe PDF页面大小，点添加，自行定义增加纸张类型。