一款优秀的中文识别库——ocr

最新推荐文章于 2025-04-27 14:09:21 发布

AI浩

最新推荐文章于 2025-04-27 14:09:21 发布

阅读量2.9k

点赞数 5

分类专栏： OCR 文章标签： python 人工智能开发语言

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/126094943

版权

OCR 专栏收录该内容

22 篇文章

订阅专栏

CnOCR是一个Python3的OCR工具包，能识别简体中文、繁体中文（部分）、英文和数字。它提供了多种预训练模型，并支持竖排文字识别。安装简单，使用方便，可以通过调整参数优化识别效果。对于排版简单的印刷体图片，可以使用'naive_det'模型以提高速度。更多详细信息和使用示例可在官方文档中查看。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CnOCR 是 Python 3 下的文字识别（Optical Character Recognition，简称OCR）工具包，支持简体中文、繁体中文（部分模型）、英文和数字的常见字符识别，支持竖排文字的识别。自带了20+个训练好的识别模型，适用于不同应用场景，安装后即可直接使用。同时，CnOCR也提供简单的训练命令供使用者训练自己的模型。欢迎加入交流群。
github地址：https://github.com/breezedeus/cnocr

安装简单

pip install cnocr

各种场景的调用示例
常见的图片识别
所有参数都使用默认值即可。如果发现效果不够好，多调整下各个参数看效果，最终往往能获得比较理想的精度。

from cnocr import CnOcr

img_fp = './docs/examples/huochepiao.jpeg'
ocr = CnOcr()  # 所有参数都使用默认值
out = ocr.ocr(img_fp)

print(out)

在这里插入图片描述
排版简单的印刷体截图图片识别
针对排版简单的印刷体文字图片，如截图图片，扫描件图片等，可使用 det_model_name=‘naive_det’，相当于不使用文本检测模型，而使用简单的规则进行分行。

使用 det_model_name=‘naive_det’ 的最大优势是速度快，劣势是对图片比较挑剔。如何判断是否该使用此检测模型呢？最简单的方式就是拿应用图片试试效果，效果好就用，不好就不用。

from cnocr import CnOcr

img_fp = './docs/examples/multi-line_cn1.png'
ocr = CnOcr(det_model_name='naive_det') 
out = ocr.ocr(img_fp)

print(out)

识别结果:
在这里插入图片描述

更多详见：
https://cnocr.readthedocs.io/zh/latest/

具体的测试，以后再写，先做个记录。