《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

最新推荐文章于 2024-06-08 09:39:47 发布

weixin_34055910

最新推荐文章于 2024-06-08 09:39:47 发布

阅读量831

点赞数

文章标签：人工智能操作系统

原文链接：https://yq.aliyun.com/articles/104964

版权

本节书摘来自异步社区《Adobe Acrobat XI经典教程》一书中的第2课制作可编辑和搜索的扫描文档，作者【美】Adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。

制作可编辑和搜索的扫描文档
Adobe Acrobat XI经典教程
从Microsoft Word或Adobe InDesign等应用程序中将文件转换成PDF时，文本是完全可以编辑和搜索的。但是，图像文件中的文本，无论是以图像格式保存的扫描文档还是文件，都无法编辑和搜索。利用OCR（光学字符识别）技术，Acrobat将可以分析图像，并用不连续的字符代替图像的某些部分。OCR同时还可以识别分析得可能不正确的字符。

下面，我们把OCR技术用在之前转换过的TIFF文件上。

1．选择File>Open，导览到Lesson02文件夹，然后打开之前保存的GC_VendAgree.pdf文件。

2．选择常用工具栏中的Selection工具（tb0205.tif），移动光标到文档的文本上。可以选择文档中的区域，但是Acrobat不会具体选择区域中的任何文本。

3．打开工具窗格，单击Text Recognition，打开面板。

4．在Text Recognition面板中，单击In This File，如图2.20所示。Acrobat显示Recognize Text对话框。

3326905a9e66fff0912ac0743ef65574184e8cb8

5．确保在对话框的Pages区域选中了Current Page。然后单击Edit，编辑转换设置，如图2.21所示。

6．在Recognize Text - General Settings对话框中，从PDF Output Style下拉列表中选择ClearScan，如图2.22所示。

利用ClearScan转换文件成可扩展的文本和图像，以在Acrobat中编辑。

03b6bfe9e7cfb449ddda1e7adf26dbf9df224ef7

737cd05952c601900b6bd0659aa77dc4b968fc11

提示：
扫描图像时，Acrobat能自动运行OCR技术。只需要在扫描前，在扫描仪预设（Windows）或Acrobat Scan对话框（Mac OS）中选择Make Searchable。
7．单击OK，关闭Recognize Text - General Settings对话框，然后再次单击OK，关闭Recognize Text对话框，运行ClearScan。

Acrobat会转换该文档。

8．利用Selection工具选择页面上的单词，如图2.23所示。Acrobat已经把图像转换成可编辑、可搜索的文本了。

0a0f06fe5cd976841dacb09132cb401e7923c555

9．单击Text Recognition面板中的Find First Suspect。Acrobat会搜索文档，找出任何可能转换得不正确的单词。如果发现任何可疑的单词，可以加以检查，并根据需要更改。用户可能还需要使用Content Editing面板中的Edit Text & Images工具，处理空格问题。

10．单击OK，关闭Touchup或Adobe Acrobat对话框，然后单击Close，关闭Find Element对话框。

11．选择File>Save As。导览到Lesson02文件夹，保存文件为GC_VendAgree_OCR.pdf。然后关闭文件。

注意：
默认情况下，Acrobat转换文档成可搜索的图像。可以利用这一设置转换文档，但是ClearScan选项往往提供更健壮、更精确的文本转换。
本文仅用于学习和交流目的，不代表异步社区观点。非商业转载请注明作译者、出处，并保留本文的原始链接。