pdf复制乱码_pdf复制文字到word乱码怎么办?

6817560c7158da2abb9cfab7f7dad3d3.png

Pdf是常用的一种文件格式,它可以保证同一个文件在不同平台不同终端看到的版面效果是一样的。

就一般使用者的理解,pdf可以分为两种,一种是图片型的pdf,一种是文本型的pdf。图片型的pdf,比较典型的是通过扫描得到的pdf文件,特点是每张pdf就是一张图片,上面的文字信息是不可直接复制的,如下图。

6fb5fc7c9f137ab568ea585314d61004.png

文本型pdf,一般是由word、indesign等图文排版编辑软件生成的,特点是pdf页面非常清晰,文本可以直接复制,并粘贴到其他编辑器中,如word。可以直接复制的表现为可以使用文本工具直接在pdf选取文本。如下图。

3b202cdd14aeeb80bbf9e6583a07759f.png

我们拿到一份pdf,不仅是看,而且往往是想获得其中的内容的。能够直接复制的文本型pdf当然是最容易获得文本信息的,但有时候仍会碰到这样的情况:在pdf文件中选取文本,粘贴到其他软件,如word中时,却出现了乱码。下面列举我遇到的两次这样的情况,以供参考。

情况一,如下图所示。

文本在pdf中呈现得很清晰,很正常。但当用文本工具选取时,却没有出现正常的浅蓝底色的选中状态,出现的是浅蓝色不整齐的下划线的状态。粘贴到word里,显示都是非常奇怪的毫无关联的字符,且是行数明显多于原文本。

f2fb40ab3dfb1d7b094a6cb6d3ffd253.png

情况二,如下图所示。

这是一段俄文。文本在pdf中呈现得很清晰,很正常。用文本工具选取时,出现正常的浅蓝底色的选中状态。粘贴到word里,显示的却几乎都是方框,有一些英文字母和数字是正确的。你可能会认为是字体的问题,但是更换了几种支持俄文的字体后,情况仍然没有变化。应该不是字体的问题。

0b7d83741d0a08e57596768342160d2f.png

pdf文本粘贴出来后文本乱码的问题,其本质应该是文字符号编码的问题。在Louis Tong非常专业的回答中有一些详细说明,链接如下

为什么从由方正书版的大样文件打印而成的 pdf 中复制出来的标点符号都是乱码?​www.zhihu.com
3faca02efff57d4e9c4921568da32a8c.png

了解文字编码的人应该可以很好地理解并解决这个问题,不过肯定是需要掌握一些比较专业的知识。对于普通的图文工作者来说,这是很难办到的。

所以遇到这种情况,最简单粗暴的方法仍然是使用OCR软件进行识别,就像对待图片型pdf一样。因为这种pdf都很清晰,所以OCR识别也可以得到另人满意的结果。


OCR是指光学字符识别技术,比较著名的软件有ABBYY FineReader。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值