用Tesseract OCR识别图片文字

最新推荐文章于 2024-07-30 17:30:49 发布

Jorwnpay

最新推荐文章于 2024-07-30 17:30:49 发布

阅读量3k

点赞数 1

分类专栏：图像处理文章标签：图像处理 tesseract python OCR

本文链接：https://blog.csdn.net/qq_41748900/article/details/85344970

版权

图像处理专栏收录该内容

6 篇文章 1 订阅

订阅专栏

用tesseract ocr识别图片中的文字

准备

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR 库，或者是在上面进行定制。 Tesseract 是一个OCR 库，目前由Google 赞助（Google 也是一家以OCR 和机器学习技术闻名于世的公司）。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。除了极高的精确度，Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体（只要这些字体的风格保持不变就可以），也可以识别出任何Unicode 字符。

Tesseract的安装

Tesseract的Windows安装包下载地址为： http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe ，下载后双击直接安装即可。

配置环境变量

安装完后，需要将Tesseract添加到系统变量中。不会配置环境变量可以看这个文章：配置环境变量

在cmd中输入tesseract -v, 如显示以下界面则表示Tesseract安装完成且添加到系统变量中

开始使用

在cmd界面输入

其中第一个目录是要识别的图片路径，第二个目录是识别出的文字写入txt文件的目录,

发现报错:

Error opening data file /usr/local/share/tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.

Failed loading language 'eng'

Tesseract couldn't load any languages!

解决方法：添加一个新的系统环境变量：

变量名：TESSDATA_PREFIX

变量值是你下载的tesseract文件包里tessdata的路径，如下图：

添加完环境变量之后，可能依然会出现同样的错误，可以重启电脑试一下

识别英文图片

这个问题解决了之后，就可以识别英文图片了

如下图

识别结果：

Hello everyone. I'm facing this above problem when my input image is the attached file. My os: 04 My input image: | in attached file(which is a .png file) My command: tesseract 0a2d.png out My output: "Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica Warning. Invalid resolution 0 dpi. Using 70 instead. Estimating resolution as 281 Empty page!! Estimating resolution as 281 Empty page!!" This engine is supposed to give the correct answer "Oa2d" I'm new to this ocr engine, so anyone can help me with this problem, many thanks:) You received this message because you are subscribed to the Google Groups "tesseract-ocr" group. To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-ocrtunsubscr. . . @googlegroups. com. To post to this group, send email to tesseract-ocr@googlegroups.com.

效果还是不不错的

接下来识别中文

需要下载中文包（可以先看一下你的tessdata文件里有没有chi_sim.traineddata文件，这是一个中文包）如果有的话就跳过这一步；如果没有，点下面的链接下载https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata 下载之后，把它放到tessdata文件里面，就可以识别中文了，在终端输入指令时要加一个命令，如下图

注意：

红圈圈住的地方这个不是一根竖线，是language的第一个字母‘l’

试一下效果：如图

识别结果：

回 All Notes ˇ | 10/26/18 09:06 ,4379 中国共产党建党以来革命、建设、改革的历史证明 , 我们党善于审时度势 , 善于发现和抓住机遥 , 善打游击战、持久战、攻坚战 , 善于化危为机 , 化被动为主动。面对贸易战 , 不能临战而怯 , 自乱阵脚 , 争取胜利的重要前提是保持战略定力 , 万众一心 , 群策群力。在未来的现代化进程中 , 中国将通过全面深化改革不断加长体制短板 , 通过发挥市场决定性作用 , 更好发挥政府作用 , 高效率配置资源 , 实现高质量发展。中美贸易战为什么必须打或者说 , 这场贸易战能不能避免 ? 结论是 : 不

可以说已经很准确了。