怎么从扫描的PDF文档/图片里提取文字

时间浪费在打字上可不好!


关于“怎么从扫描的PDF文档/图片里提取文字”,我集思广益,得到如下结果:


首先是这里的一篇文章:http://hi.baidu.com/d_zzn0470/item/4c4c4bfdee25e714fe358296,摘录如下:

 通过扫描纸质文件创建的pdf文档是不能简单地转换成可以编辑的word文档的,只能够通过文字识别的方法,将pdf文档里的文字提取出来。
    如果扫描的分辨率很低,文字识别的正确率会打很大折扣。如图示的pdf文档,扫描的质量就很低,文字模糊,笔画残缺,用什么识别工具提取文字的效果好一些呢?


1、用Adobe Acrobat识别
    用Adobe Acrobat打开这pdf文档,操作菜单“文档”→“OCR文本识别”→“使用OCR识别文本”,经过识别以后,用“选择工具”选中文字进行复制,再粘贴到文本文件或word文档,提取出的文字如下:“人提使用胶粘邦l 己有JL f 'f的历史,最早使用的胶粘制为粘土、动物胶、植物脏、iffj
宵等夭年在物质来帖横生情用品、'E严工具和古战黯哥。直到20 世纪初,ffli:曹合成高付俨
J: 业的?若立与平断进步,革于ff 峨高分f 的胶柑1111 件到了阻瞌垃隅,股帖如l 己应用于阁íI!
经济各个工业部门相日常生活中。在多年的应用中1莘步形成了简便、易行、实用的胶粘鼎l
帖楼技术。i草种技术除街Ij\用汇业相日常生Ei齿'和得到广泛1iY.咱外[!成川J 航天削啦、民
器、船舶、电子倍思工税等闲民经前工业部门不可棋性的技术
粘攘技术是种在晴性极强,科技吉量较高的技术。撞了具备简便、快捷、高逊、价
廉、惯于肯定报帮特点奸、还可忖闷质材制相术问质材制等各钟材阶的材料在不!lt外界作闸
的情况下实施良町A的粘接,解决了用其它连接方法无法解决的闷题,为结构连接和设备维
幢开辟了接醋新的道路。”
   简直是天书,根本不能采用。

2、转换成jpg图片以后在线进行识别
    用Adobe Acrobat打开这pdf文档,操作菜单“文件”→“导出”→“图像”→“JPEG”,将pdf文档转换成图片。也可以用用Phptoshop打开这pdf文档,另存为jpg图片。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值