背景说明
前几天(2018.11.11之前)严锋老师在微博上询问有没有什么软件可以完成扫描版PDF OCR转录成TXT的免费软件。从网友的回复来看,似乎仍然没有一款软件能满足上述的全部需求(免费且好用)。鉴于最近调用了腾讯的通用OCR API做文字识别,那么为什么不自己写个脚本完成这个任务呢?
况且在日常的生活中,我们经常会有需求需要将一些(盗版的)扫描PDF转录成更容易阅读和格式调整的纯文本格式,所以就有了这么一个小项目。
脚本说明
本脚本为python脚本,使用的库包括json,pillow和pdf2image等。从PDF转成TXT的关键步骤OCR识别则是调用了腾讯的通用ocr识别api。
如果你对于python有一定的了解,或者有足够的精力和兴趣折腾,欢迎尝试使用。如果感觉还不错,欢迎提供点星;如果觉得不好,也欢迎留言提供建议。
脚本链接
github地址:https://github.com/wangx404/PDF2TXT
请注意,本脚本所使用协议为GPL2.0,请勿将其用于商业用途。