ORC提取图片中文字

最新推荐文章于 2023-11-15 16:44:10 发布

HiAliens

最新推荐文章于 2023-11-15 16:44:10 发布

阅读量763

点赞数

分类专栏： NLP 文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_38715680/article/details/106009800

版权

前因：事情是这样的：目前有一个需求，将pdf中的一些内容做成PPT，PDF中的文字不能选中，是以图片形式保存的。如果人工对照PDF打字速度较慢，费时费力，下面不介绍ORC的实现，是介绍如何使用。主题:orc实现图片中的文字提取实现：1.安装pip install cnocr首次使用cnocr时，系统会自动从 cnocr-models 下载zip格式的模型压缩文件，并存于 ~/.cnocr目录。下载后的zip文件代码会自动对其解压，然后把解压后的模型相关目录放于~/.cnocr/1.1.0目

摘要由CSDN通过智能技术生成

前因：

事情是这样的：目前有一个需求，将pdf中的一些内容做成PPT，PDF中的文字不能选中，是以图片形式保存的。如果人工对照PDF打字速度较慢，费时费力，下面不介绍ORC的实现，是介绍如何使用。

主题:

orc实现图片中的文字提取

实现：

1.安装

pip install cnocr

首次使用cnocr时，系统会自动从 cnocr-models 下载zip格式的模型压缩文件，并存于 ~/.cnocr目录。下载后的zip文件代码会自动对其解压，然后把解压后的模型相关目录放于~/.cnocr/1.1.0目录中。

如果系统不能自动从 cnocr-models 成功下载zip文件，则需要手动下载此zip文件并把它放于 ~/.cnocr/1.1.0目录。如果Github下载太慢，也可以从百度云盘下载，提取码为 ri27。

放置好zip文件后，后面的事代码就会自动执行了。
具体使用参照：这里

2.使用

需要提取文字的图片：
在这里插入图片描述
这里先贴上我的代码：

from cnocr import CnOcr
file = 'res.txt'

ocr = CnOcr()
res = ocr.ocr('1.jpg')

with open(file, 'w') as f1:
    f1.write("")

with open(file, 'a') as file_:
    f

最低0.47元/天解锁文章

HiAliens

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
ORC提取图片中文字

前因：事情是这样的：目前有一个需求，将pdf中的一些内容做成PPT，PDF中的文字不能选中，是以图片形式保存的。如果人工对照PDF打字速度较慢，费时费力，下面不介绍ORC的实现，是介绍如何使用。主题:orc实现图片中的文字提取实现：1.安装pip install cnocr首次使用cnocr时，系统会自动从 cnocr-models 下载zip格式的模型压缩文件，并存于 ~/.cnocr目录。下载后的zip文件代码会自动对其解压，然后把解压后的模型相关目录放于~/.cnocr/1.1.0目
复制链接

扫一扫