时间浪费在打字上可不好!
关于“怎么从扫描的PDF文档/图片里提取文字”,我集思广益,得到如下结果:
首先是这里的一篇文章:http://hi.baidu.com/d_zzn0470/item/4c4c4bfdee25e714fe358296,摘录如下:
通过扫描纸质文件创建的pdf文档是不能简单地转换成可以编辑的word文档的,只能够通过文字识别的方法,将pdf文档里的文字提取出来。
如果扫描的分辨率很低,文字识别的正确率会打很大折扣。如图示的pdf文档,扫描的质量就很低,文字模糊,笔画残缺,用什么识别工具提取文字的效果好一些呢?
1、用Adobe Acrobat识别
用Adobe Acrobat打开这pdf文档,操作菜单“文档”→“OCR文本识别”→“使用OCR识别文本”,经过识别以后,用“选择工具”选中文字进行复制,再粘贴到文本文件或word文档,提取出的文字如下:“人提使用胶粘邦l 己有JL f 'f的历史,最早使用的胶粘制为粘土、动物胶、植物脏、iffj
宵等夭年在物质来帖横生情用品、'E严工具和古战黯哥。直到20 世纪初,ffli:曹合成高付俨
J: 业的?若立与平断进步,革于ff 峨高分f 的胶柑1111 件到了阻瞌垃隅,股帖如l 己应用于阁íI!
经济各个工业部门相日常生活中。在多年的应用中1莘步形成了简便、易行、实用的胶粘鼎l
帖楼技术。i草种技术除街Ij\用汇业相日常生Ei齿'和得到广泛1iY.咱外[!成川J 航天削啦、民
器、船舶、电子倍思工税等闲民经前工业部门不可棋性的技术
粘攘技术是种在晴性极强,科技吉量较高的技术。撞了具备简便、快捷、高逊、价
廉、惯于肯定报帮特点奸、还可忖闷质材制相术问质材制等各钟材阶的材料在不!lt外界作闸
的情况下实施良町A的粘接,解决了用其它连接方法无法解决的闷题,为结构连接和设备维
幢开辟了接醋新的道路。”
简直是天书,根本不能采用。
2、转换成jpg图片以后在线进行识别
用Adobe Acrobat打开这pdf文档,操作菜单“文件”→“导出”→“图像”→“JPEG”,将pdf文档转换成图片。也可以用用Phptoshop打开这pdf文档,另存为jpg图片。