学习笔记
想必大家也遇到过——有的PDF的文本可以直接复制出来、整个文档可以转换成很常规的DOC文件,但是有的PDF却不可以,里面的文字无法选中,转换成DOC之后还很可能是图片式的,文字依然无法选中……
为便于表达,我们把前者称为“可编辑的PDF”,后者称为“不可编辑的PDF”,不讨论PDF设置了“保护密码”的情况。“可编辑的PDF”的文字可以被选中和复制,与其他格式互转之后差异很小,由DOC文档转换成的PDF就是这样。“不可编辑的PDF”则很可能来自于图片或扫描件,有的是清晰的,看起来与“可编辑的PDF”没有差别,但数据记录的形式有根本区别;还有的是模糊的或者歪的,非常难处理,不利于获取要翻译的文本。
本篇推送,继续以福昕为例,分别展示上述两类PDF的文本处理,涉及文本编辑、字数统计、文本提取与OCR功能,希望大家藉此机会,举一反三,以后充分运用到翻译项目中去~
一、对于“可编辑的PDF”
可编辑PDF的文本可以直接复制出来,整个文档可以转换成很常规的DOC文件。
01
文本编辑
点击“编辑”工具栏,选择“编辑文本”工具。文件页面显示出文本框,可以编辑其中的文本。