ocr中文数据集_CNOCR：测试集准确率最高98%，自带识别模型的中文OCR包

最新推荐文章于 2024-07-16 11:29:03 发布

weixin_39899021

最新推荐文章于 2024-07-16 11:29:03 发布

阅读量1k

点赞数

文章标签： ocr中文数据集验证集准确率高测试集低

今天 Gitee 为大家介绍的是一款中文 OCR 包。大家都知道，训练模型是一件非常费时费力的事情，但今天这款项目已经自带训练好的识别模型，我们只需要下载下来使用即可，可以说是非常方便了，那么下面我们就去看看这个项目的详细信息吧。

项目名称：cnocr

项目作者：cyahua

开源许可协议：Apache-2.0

项目地址：https://gitee.com/cyahua/cnocr

项目简介

cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型，安装后即可直接使用。

cnocr主要针对的是排版简单的印刷体文字图片，如截图图片，扫描件等。cnocr目前内置的文字检测和分行模块无法处理复杂的文字排版定位。如果要用于场景文字图片的识别，需要结合其他的场景文字检测引擎使用。

示例

可直接使用的模型

cnocr的ocr模型可以分为两阶段：第一阶段是获得ocr图片的局部编码向量，第二部分是对局部编码向量进行序列学习，获得序列编码向量。目前两个阶段分别包含以下的模型：

局部编码模型（emb model）
1. conv：多层的卷积网络；
2. conv-lite：更小的多层卷积网络；
3. densenet：一个小型的densenet网络；
4. densenet-lite：一个更小的densenet网络。
序列编码模型（seq model）
1. lstm：两层的LSTM网络；
2. gru：两层的GRU网络；
3. fc：两层的全连接网络。

cnocr目前包含以下可直接使用的模型，训练好的模型都放在 cnocr-models 项目中，可免费下载使用：

特色

本项目的初期代码fork自 crnn-mxnet-chinese-text-recognition，感谢作者。

但源项目使用起来不够方便，所以我在此基础上做了一些封装和重构。主要变化如下：

不再使用需要额外安装的MXNet WarpCTC Loss，改用原生的 MXNet CTC Loss。所以安装极简！
自带训练好的中文OCR识别模型。不再需要额外训练！
增加了预测（或推断）接口。所以使用方便！

如果你对这个项目感兴趣，想要亲自试一试识别的效果的话，可以点击后面的链接前往项目主页看看，如果觉得不错记得给它一个 Star 哦：https://gitee.com/cyahua/cnocr

weixin_39899021

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。