教你正确使用文字识别软件ABBYY的转换格式功能

PDF文档作为一种以图像模型作为基础的文件格式,可以在不同操作系统的计算机上使用,而且由于其图像模型的特点,在打印时能保持颜色、排版等准确性,是一种十分流行的文件格式。

但PDF文档有一个缺点,就是其编辑功能不如Word文档等办公软件好用。因此,很多人在编辑PDF文档时会选择将其转换为Word文档等。本文将会教大家怎么正确使用文字识别软件ABBYY FineReader PDF 15进行PDF文档的格式转换。

一、使用转换文档功能

ABBYY FineReader PDF 15提供了多种PDF文档转换格式的选项。如图1所示,我们可以将PDF文档转换为Word文档、Excel电子表格,或其他如PPT演示文稿、TXT等格式。

接下来,我们以转换为Word文档为例,单击“转换为Microsoft Word”。

图1:转换文档功能

二、以转换为Word文档为例

在转换为Microsoft Word面板中,可通过使用其工具栏中的“添加文件”按钮,添加一个或多个PDF文档。

图2:添加文件

完成PDF文档的添加后,我们就需要选择转换保留的格式。那么,不同保留格式导出的Word文档有什么不同?该如何正确选择这些格式呢?

如图3所示,可以看到,精确副本与可编辑副本相似,均保持了大部分原始格式,但精确副本相对准确度更高,但提供的编辑选项有限,比如一些图形化文本可能无法编辑等。而格式化文本与纯文本更着重保留文本信息,精简了图片等元素。

图3:设置保留格式

小技巧:如果您不想花费时间逐一查看这些保留格式导出的文本样式,可使用“在OCR编辑中打开”的功能。

图4:在OCR编辑器中打开

在OCR编辑器的顶部保存选项中,当我们选取不同的保留格式后,下方的预览窗口就会显示该保留格式相对应的保存样式。比如,当前选择的是“精确副本”,下方的预览窗口就会出现精确副本的导出样式预览。

接下来,我们通过导出的实例来进一步了解这些保留格式的区别。

 

图5:OCR编辑器保存选项

1、精确副本与可编辑格式

在本例中,精确副本与可编辑格式的导出样式基本一致。这两种格式都能很好地“复制”原有PDF文档的排版、文本格式等,适合用于需要将整页整体输出使用的情况。

图6:精确与可编辑格式

2、格式化文本

格式化文本,是在保留文本格式的前提下,将文本单列为一列,方便进行文本信息的提取使用。由于该格式保留了一部分文本格式,可直接用于PPT等演示文稿的制作,而无须进行文本的格式化。

图7:格式化文本

3、纯文本

纯文本是四种保留格式中更为精简的格式,不仅精简了整体的格式,而且还精简了文本格式,适用于单纯的文本提取。

图8:纯文本

四、小结

以上四种保留格式是针对转换为Microsoft Word文档的,对于不同的转换格式,ABBYY FineReader PDF 15会提供不同的保留格式选项。我们可以根据文档的使用目的,选取合适的保留格式。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值