关于tesseract-OCR

测试了一下tesseract文字识别,记录一下备忘

1) 黑白反转图不能识别,需自行反转后再识别

2)chi_sim和eng都可以识别字母,但只有字母时用eng识别精度更高:用小的识别文本集精度更高

3)用pip install tesseract安装时,需先安装tesseract软件发行版,且安装的是基于python2.x的版本。还要注意x86与x64。

4) 安装时各种字符集的训练网络下载很慢,如不需要不必全部下载。

5)软件是开源的

6)可以自行训练,手写体最好自行训练。

7)测试结果:印刷体汉字与字母识别精度较高,在95%以上。手写体识别效果较差,数字1和7,3和8容易混淆。

8)识別一张( 1920*1080)的图像需要约 5秒

参看:Tesseract-OCR的简单使用与训练 - 小LiAn - 博客园  https://www.cnblogs.com/cnlian/p/5765871.html

 

发布了9 篇原创文章 · 获赞 0 · 访问量 311
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览