nasm纠正性训练指南pdf_PDF转word,一键转换?没有这么简单

d0d001a20ab2d6f3efbd00bb472e83f2.png

为什么发布文档时,一般都选择pdf格式?

PDF,Portable Document Format,可携带文档格式。最大的好处是在不同终端、不同操作系统,它都能够保证版面效果不变,同时它也具有难以编辑的特性。发布传播文档时,希望文档无论在什么终端、系统下都能保持版面不变,同时不希望别人可以随意更改文档,PDF刚好能满足需求。所以发布文档时,大都选择pdf格式。

为什么想要把pdf转换成word或者其他格式呢?

收到文档的人是形形色色的,有很多人想获取pdf中的内容,并编辑。这就产生了pdf转word、pdf转PPT、pdf转excel等的需求。

为了满足这些需求,网络上出现了很多工具软件、网站,都提供PDF到word的一键转换功能。人们很懒的,都想一键转换,但是一键转换怎么可能满足人们多样化的需求呢。当不能得到满意的结果的时候,你有没有想过这些工具软件、网站都是怎么工作的?了解一下,有助于你更高效地解决这个问题。

PDF转word的流程

8086568673033e883d747f2fc1c0c912.png
PDF转word的流程

一、pdf文件

pdf文件可以分为两种:文字版pdf和图片版pdf。

文字版pdf不是指只含有文字的pdf,是指可以直接选中并复制文字的pdf。这种pdf一般是由Word、Indesign、Excel等软件导出生成的,直接含有文字、数据等信息,是矢量的,不会因为放大而看到模糊,清晰度非常高。

图片版pdf,pdf只包含有图形、图片、几何形状,看着有文字,但都是图片化的文字,不可选中复制。图片型pdf可以是由扫描图片组合而成,也可以是由一些手机照片组合而成,它的清晰度由图片的清晰度决定。文字版pdf通过文字转曲线功能,可以得矢量高清的图片版pdf。

文字版pdf往往比图片版pdf更容易转换为其他可以编辑的文档格式,转换效果更好。

80da1a21595d3704f691a4515b5d5b46.png
pdf转word图片版pdf与文字版pdf

二、图像预处理

如果输入的pdf文件是文字版pdf,那么不需要图像预处理;如果输入的是图片版pdf,就需要预处理。

图像预处理包括:拆分对开页、纠正页面方向、歪斜校正、校直文本行、校正图像分辨率、检测页面边角、加白背景、降低ISO噪点、去除运动模糊、纠正梯形失真等等。

1. 拆分对开页。书籍扫描时使用平板扫描仪,对开的两个页面一次扫描成一个图片,这样可以提高扫描效率。但对开页必须拆开处理,才能提高识别的正确率。对开页如下图。

34568d16264bca040f3e577301a4c609.png
pdf转word扫描对开页

2. 纠正页面方向。由于扫描时的错误设置或操作,或者其他原因,页面图像旋转了90度或者180度,导致页面方向不正确。页面方向必须得到纠正,才能正确地识别上面的信息。

3. 歪斜校正。在扫描或者拍照时,不论如何小心操作,页面图像或多或少都会有一定的歪斜,因此需要对页面图像进行歪斜校正。如上图,可以明显看出右页有歪斜。

4. 校直文本行。纸张的变形会引用文本行的变形,变形的文本行显然会增加识别难度。校直文本行是一个大难题。如下图,手机拍摄的,文本行弯曲,需要校直。

72367918ee3dacaac268f358290d3786.png
pdf转word校直文本行

5. 校正图像分辨率。各个工具软件都有自己适合的分辨率,分辨率低了肯定不行,但是也不是越高越好。

6. 检测页面边角、加白背景、降低ISO噪点、去除运动模糊、纠正梯形失真。

这些预处理项目主要是针对手机或相机拍摄得到的页面图像。相对于扫描来说,手机或相机拍摄更难把控页面图像的质量,会出现页面边角难以分辨、产生阴影、出现ISO噪点、手抖造成运动模糊、角度不好造成页面呈梯形、纸面难以压平造成文本行弯曲……如上图,页面边界需要检测;页面暗淡,需要加白背景;也存在梯形失真,需要纠正。

不同的软件对图像预处理的项目、算法不尽相同,最终影响转换效果。

三、版面分析

文字版的pdf可能已经丢失了版面信息,所以仍然需要进行版面分析,才能正确输出。

一个版面中可以包含很多元素,如页眉(天头)、页脚(地脚)、文本、图片、表格、公式、形状、背景等等,排版的形式更是千变万化,两栏、三栏、图片穿插、图文表混排、中英混排、横竖混排等等。这就非常考验软件的版面分析能力了,越复杂,元素越多的版面,分析起来就越困难,分析不正确自然得不到好的结果。如下图,左侧是一个最简单的版面,我想任何一个软件都可以分析正确,可以预期比较好的识别结果;而右侧是一个书籍封面,这个版面可能很少有软件能够正确分析,往往也不能得到好的结果。

e487898bd683a4ac46abdeb69a9f27ca.png
pdf转word简单版面与复杂版面

四、OCR识别

OCR,optical character recognition,光学字符识别,就是把已经图片化的文字识别成可编辑的文字。文字版的pdf并不需要进行OCR识别。现在国内的百度、阿里、腾讯等大厂都有自己的OCR引擎,很多pdf转word的软件都是调用了这些引擎。

OCR引擎的好坏关系到文字识别的正确率的高低。俄罗斯的ABBYY finereader的OCR引擎,是比较好的,我一直在使用。

五、输出

一般的软件都可以输出多种格式,就看实际需要什么格式了。在这里着重说一说转出word格式的不同模式。在ABBYY FineReader中输出Word,有“纯文本”和“精确副本”等选项(中间还有其他选项“可编辑副本”和“格式化文本”)。“纯文本”输出时仍然可以选择保留图片、上下标、粗体等,这种方式会丢弃大部分格式信息和位置信息,获得了流排文本,从而获得更好的编辑性;而“精确副本”保留了所有的格式和位置信息,文本分块以图文框定位于文档页面中,各块文本之间失去了联系,不具有流排特征,可编辑性很差。

WPS中的pdf转word功能也提供了类似的选项,“布局优先”和“编辑优先”,其他软件可能也有类似的选项。

选哪种模式,还看需求。如果对输出后的word改动较小,可以“精确副本”;如果要全部重排的,要“纯文本”。

01fbaab5ecfe537314c64c7db2b22166.png
pdf转换word纯文本输出与精确输出

pdf转word的其他文章可以看

阿德:PDF转Word后的难题:一段变多段、分段不正确、每行末多加了回车符​zhuanlan.zhihu.com
e6e6ca9f027fe711f37527771644e387.png
阿德:PDF转word——这样的pdf一键转换只是浪费钱​zhuanlan.zhihu.com
34a6a13c1241434c5f1c7263a73e1ced.png

36dc86720375fea0a3e136d83044fe5c.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
NASM中文手册.pdfnasm必备哈 1.1 什么是NASM [1]NASM是一个为可移植与模块化而设计的一个80x86的汇编器。它支持相当多 的目标文件格式,包括Linux和'NetBSD/FreeBSD','a.out','ELF','COFF',微软16 位的'OBJ'和'Win32'。它还可以输出纯二进制文件。它的语法设计得相当的简 洁易懂,和Intel语法相似但更简单。它支持'Pentium','P6','MMX','3DNow!', 'SSE' and 'SSE2'指令集, 1.1.1 为什么还需要一个汇编器? NASM当初被设计出来的想法是'comp.lang.asm.x86'(或者可能是'alt.lang.asm' ,我忘了),从本质上讲,是因为没有一个好的免费的x86系例的汇编器可以使用, 所以,必须有人来写一个。 (*)'a86'不错,但不是免费的,而且你不可能得到32位代码编写的功能,除非你 付费,它只使用在dos上。 (*) 'gas'是免费的,而且在dos下和unix下都可以使用,但是它是作为'gcc'的一 个后台而设计的,并不是很好,'gcc'一直就提供给它绝对正确的代码,所以它的 错误检测功能相当弱,还有就是对于任何一个想真正利用它写点东西的人来讲, 它的语法简直太可怕了,并且你无法在里面写正确的16位代码。 (*) 'as86'是专门为Minix和Linux设计的,但看上去并没有很多文档可以参考。 (*) 'MASM'不是很好,并且相当贵,还且只能运行在DOS下。 (*) 'TASM'好一些,但却极入与MASM保持兼容,这就意味着无数的伪操作码和繁琐 的约定,并且它的语法本质上就是MASM的,伴随着的就是一些自相矛盾和奇怪的 东西。它也是相当贵的,并且只能运行在DOS下。 所以,只有NASM才能使您愉悦得编程。目前,它仍在原型设计阶段-我们不期望它 能够超越所有的这些汇编器。但请您发给我们bug报告,修正意见,和其他有用的 信息,还有其他任何你手头有的对我们有用的信息(感谢所有已经这样在做了的 人们),我们还会不断地改进它。 1.1.2 许可条件 请阅读作为NASM发布的一部分的文件'Licence',只有在该许可条件下你才可以使 用NASM

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值