ORC提取图片中文字

前因:事情是这样的:目前有一个需求,将pdf中的一些内容做成PPT,PDF中的文字不能选中,是以图片形式保存的。如果人工对照PDF打字速度较慢,费时费力,下面不介绍ORC的实现,是介绍如何使用。主题:orc实现图片中的文字提取实现:1.安装pip install cnocr首次使用cnocr时,系统会自动从 cnocr-models 下载zip格式的模型压缩文件,并存于 ~/.cnocr目录。 下载后的zip文件代码会自动对其解压,然后把解压后的模型相关目录放于~/.cnocr/1.1.0目
摘要由CSDN通过智能技术生成

前因:

事情是这样的:目前有一个需求,将pdf中的一些内容做成PPT,PDF中的文字不能选中,是以图片形式保存的。如果人工对照PDF打字速度较慢,费时费力,下面不介绍ORC的实现,是介绍如何使用。

主题:

orc实现图片中的文字提取

实现:

1.安装

pip install cnocr

首次使用cnocr时,系统会自动从 cnocr-models 下载zip格式的模型压缩文件,并存于 ~/.cnocr目录。 下载后的zip文件代码会自动对其解压,然后把解压后的模型相关目录放于~/.cnocr/1.1.0目录中。

如果系统不能自动从 cnocr-models 成功下载zip文件,则需要手动下载此zip文件并把它放于 ~/.cnocr/1.1.0目录。如果Github下载太慢,也可以从 百度云盘 下载, 提取码为 ri27。

放置好zip文件后,后面的事代码就会自动执行了。
具体使用参照:这里

2.使用

需要提取文字的图片:
在这里插入图片描述
这里先贴上我的代码:

from cnocr import CnOcr
file = 'res.txt'

ocr = CnOcr()
res = ocr.ocr('1.jpg')

with open(file, 'w') as f1:
    f1.write("")

with open(file, 'a') as file_:
    f
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值