前因:
事情是这样的:目前有一个需求,将pdf中的一些内容做成PPT,PDF中的文字不能选中,是以图片形式保存的。如果人工对照PDF打字速度较慢,费时费力,下面不介绍ORC的实现,是介绍如何使用。
主题:
orc实现图片中的文字提取
实现:
1.安装
pip install cnocr
首次使用cnocr时,系统会自动从 cnocr-models 下载zip格式的模型压缩文件,并存于 ~/.cnocr目录。 下载后的zip文件代码会自动对其解压,然后把解压后的模型相关目录放于~/.cnocr/1.1.0目录中。
如果系统不能自动从 cnocr-models 成功下载zip文件,则需要手动下载此zip文件并把它放于 ~/.cnocr/1.1.0目录。如果Github下载太慢,也可以从 百度云盘 下载, 提取码为 ri27。
放置好zip文件后,后面的事代码就会自动执行了。
具体使用参照:这里
2.使用
需要提取文字的图片:
这里先贴上我的代码:
from cnocr import CnOcr
file = 'res.txt'
ocr = CnOcr()
res = ocr.ocr('1.jpg')
with open(file, 'w') as f1:
f1.write("")
with open(file, 'a') as file_:
f