tesseract 识别中文字符

最新推荐文章于 2024-03-21 22:37:35 发布

iteye_10833

最新推荐文章于 2024-03-21 22:37:35 发布

阅读量673

点赞数

分类专栏： java

java 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

tesseract是谷歌的一个对图片进行识别的开源框架，免费使用，现在已经支持中文，而且识别率非常高，这里简要来个helloworld级别的认识

下载地址：http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=

下载之后进行安装，不再演示。

在tesseract目录下，有个tesseract.exe文件，主要调用这个执行文件，用cmd运行到这个目录下，在这个目录下同时放置一张需要识别的图片，这里是123.jpg

然后运行:tesseract 123.jpg result

会把123.jpg自动识别并转换为txt文件到result.txt

但是此时中文识别不好，要下载一个中文包：http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

然后找到tessdata目录，把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata

ok,现在中文识别基本达到90%以上了

测试下：

源文件（图片）：此开卷第一回也。作者自云曾历过一番梦幻之后，故将真事隐去，

而借“通灵”说此《石头记》一书也，故曰“甄士隐”云云。但书中所记何事何人？

Tesseract release notes August 27 2007 - V2.01

Fixed UTF8 input problems with box file reader.

4-834578457384578-871238917238912739823749834789

输入：tesseract 123.jpg result

测试结果为：

此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去,

而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7

Tesseract re1ease notes August Z7 Z007 7 \「Z.O1

Fixed [二TFS input prob1ems \vit11 box fi1e reader.

4783457845738457S7871Z38917Z38912739S23749834789

识别率还是蛮高的，，，更详细的需要自己去钻研了。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tesseract 识别中文字符

tesseract是谷歌的一个对图片进行识别的开源框架，免费使用，现在已经支持中文，而且识别率非常高，这里简要来个helloworld级别的认识下载地址：http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&amp;can=2&amp;q=下载之后进行安装，不...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。