一次OCR实践的心得

背景

购买了一份PDF但只能在特定环境下查看,颇有不便,因此想将其转换成word。记录下实践心得。以便再用。

首次实践

1,提取成图片。该PDF只能特定环境下查看,由于有加密保护,无法直接截屏。解决办法:在host B上远程登录特定环境host A,然后在B上截图。

2,为提高截图的效率以及保证一致性,采用hypersnap。指定区域然后可连续截图。

3,将图片通过OCR转换。由于环境受限不能安装软件。故主要选择Online转换工具。比较了10+网站,发现Free Online OCR - Image to text and PDF to Doc converterImage to text converter is a free OCR tool that allows you to convert Picture to text, convert PDF to Doc file and extract text from PDF fileshttps://www.onlineocr.net/

此网站的转换效果相对最佳。 

注:

此网站为收费网站,一天只能免费转换15页。为避开此限制,可在达到上限后,重开chrome并采用隐身模式。便又可转换15页。重复此过程便可。

虽然是相对最佳,但格式很多乱掉,错误也很多。尝试着手动修改,一天仅改了个10来页。慢且痛苦。

优化实践

周末琢磨了一下。照此修改下去费时费神。调整思路:1,换成桌面版的专业软件。2,提高图片分辨率。

1,通过VPN连接后,在32寸的4K显示器上,重新截图。

2,安装ABBYY的企业版(试用版可以免费转换100页。在范围内)。设置最优的选项,启动转换。

此时查看效果,明显好了很多。

注:ABBYY的转换效果相比而言已经好了很多。但依然存在不少问题。手工调整便可。一天基本可修改完。

总结 

1,分辨率要足够。可以直接上大尺寸的4K显示器。

2,选王者ABBYY。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值