python 文字识别 tesseract_Python_文字识别引擎试用：tesseract-ocr

南京周润发

于 2021-02-19 22:05:52 发布

阅读量165

点赞数

文章标签： python 文字识别 tesseract

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_30610771/article/details/114399196

版权

tesseract-ocr是一个OCR引擎，在1985年到1995年由HP实验室开发，后来由google开发并且开源，支持多平台，支持多达40种语言，其中包括中文，支持训练，tesseract-ocr是一个命令行程序，但是也提供多种语言的包装器，如.Net 、Python、Ruby、C、Java，方便集成到程序中使用。

命令行调用很简单：

tesseract.exe [-l lang] [configs]

：要识别的图片路径

：命令行模式下，tesseract会把识别出来的文字结果保存在一个文本文件中，outputName是该文件的名字，如果值为“lixin”，那么结果会保存在程序根目录下的lixin.txt文件中。

[-l lang]：默认情况下自带了英文的字典，如果想识别中文或者其他语言，需要在下载相应的语言包，并存放在程序“/tessdata”目录下，例如我下载了一个简体中文包，文件名为“chi_sim.traineddata”，解压到“tessdata”目录下，然后该值为：“-l chi_sim”。

[configs]：配置项。

调用的例子：tesseract.exe d:\test.jpg resultFile –l chi_sim

经过测试，英文的识别率还是比较高的，但在字体比较小的情况下，识别率很差，我在记事本上输入自己的手机号码，10px字体，然后截图测试，发现识别错误，接着我把原图进行放大到200%，再进行测试，则识别正确；测试中文时，识别率没有英文高，而且同样存在字体不够大时识别错误率高，通过放大图片或者字体均能提高识别率，常规的验证码识别没问题，但是连体字符则无法识别

南京周润发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 文字识别 tesseract_Python_文字识别引擎试用：tesseract-ocr

tesseract-ocr是一个OCR引擎，在1985年到1995年由HP实验室开发，后来由google开发并且开源，支持多平台，支持多达40种语言，其中包括中文，支持训练，tesseract-ocr是一个命令行程序，但是也提供多种语言的包装器，如.Net 、Python、Ruby、C、Java，方便集成到程序中使用。命令行调用很简单：tesseract.exe [-l lang] [con...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。