扫描版PDF转文本的方法

PDF转文本文件的最简单方法

有很多是用扫描仪扫进去然后做成的caj文件或pdf文件

这样就没法用选定文本的方式来复制、粘贴了。很郁闷!!

有没有办法将这些图片格式的文本转成真正的文本呢,当然有!

需要的软件就是鼎鼎大名的office 2003

1.用Adobe Reader 或者是CajViewer打开所要转的文件

2.工具栏里选文件->打印.一般安装了office 2003之后就安装一个虚拟打印机(Microsoft office Document imaging),然后选择这个虚拟打印机.选打印全部点确定

3.之后选择文件保存路径,这个文件是mdi格式的,打印完后Microsoft office Document imaging会自动打开你刚才保存的文件.

4.然后在工具栏里选择工具->将文本发送到Word

5.在这里需要Office的一个OCR(Optical Character Recognition光学字符识别)插件,如果在安装Office的时候没有安装,这时候需要用磁盘或镜像进行安装,提前备好Office安装程序哦

 

大功告成,但是OCR不可能达到100%准确,之后还需要对文档进行reivew及修改工作,但是这个工作量比你把PDF中左右文字一个个敲到文本文件里可是效率高得多。

 

如果有兴趣也可以自己写个OCR是识别程序,开源且支持中文的OCR库推荐Tesseract(C++),当然也可以使用更好用的Asprise-OCR(支提供JAVA接口)不过需要破解后使用,破解及使用方法可以google一下。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值