背景
购买了一份PDF但只能在特定环境下查看,颇有不便,因此想将其转换成word。记录下实践心得。以便再用。
首次实践
1,提取成图片。该PDF只能特定环境下查看,由于有加密保护,无法直接截屏。解决办法:在host B上远程登录特定环境host A,然后在B上截图。
2,为提高截图的效率以及保证一致性,采用hypersnap。指定区域然后可连续截图。
3,将图片通过OCR转换。由于环境受限不能安装软件。故主要选择Online转换工具。比较了10+网站,发现Free Online OCR - Image to text and PDF to Doc converterImage to text converter is a free OCR tool that allows you to convert Picture to text, convert PDF to Doc file and extract text from PDF fileshttps://www.onlineocr.net/
此网站的转换效果相对最佳。
注:
此网站为收费网站,一天只能免费转换15页。为避开此限制,可在达到上限后,重开chrome并采用隐身模式。便又可转换15页。重复此过程便可。
虽然是相对最佳,但格式很多乱掉,错误也很多。尝试着手动修改,一天仅改了个10来页。慢且痛苦。
优化实践
周末琢磨了一下。照此修改下去费时费神。调整思路:1,换成桌面版的专业软件。2,提高图片分辨率。
1,通过VPN连接后,在32寸的4K显示器上,重新截图。
2,安装ABBYY的企业版(试用版可以免费转换100页。在范围内)。设置最优的选项,启动转换。
此时查看效果,明显好了很多。
注:ABBYY的转换效果相比而言已经好了很多。但依然存在不少问题。手工调整便可。一天基本可修改完。
总结
1,分辨率要足够。可以直接上大尺寸的4K显示器。
2,选王者ABBYY。