python3使用谷歌tesseract-ocr4.0实现图像/文字识别

最新推荐文章于 2024-08-07 16:33:32 发布

江湖一点雨

最新推荐文章于 2024-08-07 16:33:32 发布

阅读量4.7k

点赞数 1

分类专栏： # Ubuntu系统文章标签： python3使用谷歌tesseract-ocr4.0实现图像/文字

本文链接：https://blog.csdn.net/ITBigGod/article/details/86704946

版权

python3使用谷歌tesseract-ocr4.0实现图像/文字识别

上一篇是关于安装：ubuntu16.04安装编译谷歌tesseract-ocr4.0。

这一篇python3使用谷歌tesseract-ocr4.0实现图像/文字识别。

在安装tesseract-ocr4.0完成以后，在pycharm里面配置了对应的字体库路径（这步可以不做）。

打开pycharm：
新建一个gg_ocr.py:

当前路径是： /home/xxy/PycharmProjects/different_ocr/google_ocr

源码如下：

# python 3.5
# 谷歌tesseract-ocr使用

from PIL import Image
import pytesseract
import json
import re
import os


class Languages:
    CHS = 'chi_sim'     # 中文
    CHT = 'chi_tra'     # 繁体

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

江湖一点雨

关注关注

1
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tesseract-ocr4.0

08-11

Tesseract OCR识别图书大图上的文字,tesseract-ocr4.0

在Python中使用Tesseract进行OCR识别

IT江湖的刀光剑影

10-08

1984

本教程翻译自PyImageSearch英文原文 Tesseract OCR 上周的博客内容，我们学习了如何安装Tesseract去做OCR识别。然后我们通过一些小图片示例去应用Tesseract测试和评估这个OCR引擎的性能。我们的结论显示，Tesseract在前景文本和背景色区分的非常清晰的图片上工作非常好。实际上，保证这些类型的分割可能极具挑战性。因此，我们...

参与评论您还未登录，请先登录后发表或查看评论

Android OCR && 谷歌OCR TextRecognition用法介绍

热门推荐

ejinxian的专栏

07-01

1万+

谷歌发布了Cloud Vision API（应用程序接口）的公测版。将帮助第三方开发者在自己的应用中集成图像识别和分类功能。谷歌的技术能完成基础性功能，例如从图像中提取文字。真正强大之处在于识别图片中的对象。这与谷歌 Photos 的图片搜索功能采用了同样的技术。而谷歌 Photos 能够识别花、食品、动物，以及本地地标等对象。谷歌表示，这一算法经过了训练，能识别“数千种”不同对象

tesseract-ocr4.0安装包和中文语言包

01-29

综上所述，通过安装Tesseract OCR 4.0，添加中文语言包`chi_sim.traineddata`，并利用Python的`pytesseract`库，我们可以实现对中文文本的光学字符识别。这在文档扫描、图片转文本等领域有着广泛的应用。

Tesseract-OCR4.0引擎中文字库

01-10

总结来说，`chi_sim.traineddata`是Tesseract OCR 4.0识别简体中文所必需的数据文件，正确配置和使用它可以有效地从中文图像中提取文本。结合适当的预处理、配置参数调整以及字典支持，可以进一步提升识别准确性和...

tesseract-OCR识别实例工程(vs2015+win10)+tesseract 4.0（32位和64位编译库）

02-19

本篇文章将围绕"Tesseract 4.0识别实例工程"展开，介绍如何在VS2015环境下在Windows 10上配置和使用Tesseract OCR，以及提供的示例程序的详细使用方法。 **1. Tesseract 4.0库的安装与配置** Tesseract 4.0相对于...

python3调用百度API--ocr实现图像/文字/验证码识别

空空说技术的博客

11-22

1万+

python3调用百度API–ocr实现图像/文字识别 本文介绍一下python3调用百度API–ocr实现图像/文字识别。其他的请参看：谷歌tesseract-ocr4.0实现图像/文字识别，本文相关资料：百度API文档远程调用参考：https://segmentfault.com/n/1330000015490371 下载百度API库下载baidu-aip这个库，可以直接使用pi...

python图片中文识别引擎Tesseract-OCR

12-22

python图片中文识别引擎Tesseract-OCR，支持英文中文的识别，语言库丰富可选择性安装需要的语言，解压之后直接点击安装下一步即可。安装完成之后设置pytesseract.py中的tesseract_cmd为'C:/Program Files (x86)/Tesseract-OCR/tesseract'，tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'赋值给def image_to_string(image, lang=None, boxes=False, config=tessdata_dir_config):即可使用

python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

09-17

主要介绍了python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

图像识别四大图像库

程序猿老樊的博客

07-28

1万+

1.OpenCV库 OpenCV功能十分的强大，而且支持目前先进的图像处理技术，体系十分完善，操作手册很详细，手册首先给大家补计算机视觉的知识，几乎涵盖了近10年内的主流算法；然后将图像格式和矩阵运算，然后将各个算法的实现函数。用它来做了一个Harris角点检测器和Canny边缘检测器，一个小时（第一次用OpenCV）就可以搞定。而且该库显示图像极其方便，两句话就可...

windows python3 tesseract4配置

weixin_41972401的博客

08-02

419

pip安装： pytesseract Pillow 下载 tesseract-ocr4.0 ，安装，配置计算机环境变量，将路径追加到 PATH里 cmd下输入 tesseract 运行，是否有这个命令没有的原因可能是权限问题，用管理员模式打开cmd，运行运行代码...

【技术】Google开源OCR项目Tesseract安装版在Windows下的使用测试记录

小白兔的窝

08-15

1353

开源OCR项目有很多，给大家一个链接，这个链接列出了现有的比较出名的OCR开源项目，链接如下： https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software 从上面的排名可以看到，Tesseract是排在第一名的，所以咱们就先研究和测试它吧！首先下载Tesseract在Windows下的...

python3 ocr识别_python3使用PIL、tesseract-ocr与pytesseract模块的图片识别

weixin_30070647的博客

01-14

134

第一步：下载安装包根据https://github.com/tesseract-ocr/tesseract/wiki 我找到非官方的安装包，好像我只看到64位的安装包http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe下载后直接安装即可，但是要记得你的安装目录，我们等会配置环境变量要用。如果不是做英...

Python3+pytesseract+Tesseract-OCR5.0图片文字识别

huangle63的专栏

07-07

543

1.环境 python版本：3.8.3 （python2.7或3以上）操作系统：windows10系统 2.工具安装和配置 1.下载安装 tesseract-ocr：官网地址 2.添加环境变量：TESSDATA_PREFIX = E:/Programs/Tesseract-OCR 3.编辑文件：E:、ProgramsPython\Python38\Lib\site-packages\pytesseract\pytesseract.py tesseract_cmd = ‘tesseract’ #改为：路径

Python使用Tesseract 4.0识别图片文字

qq_37439485的博客

08-30

1491

环境：windows 1.pip install pillow 2.pip install pytesseract 3.下载并安装Tesseract-OCR 4.0:https://digi.bib.uni-mannheim.de/tesseract/ 修改环境变量：PATH添加Tesseract-OCR路径。系统变量新增TESSDATA_PREFIX，设置路径Tesseract-O...

Tesseract-OCR 4.0+在windows中安装

08-01

Tesseract OCR是一个开源的光学字符识别引擎，常用于将图片中的文字转换为文本。要在Windows上安装Tesseract 4.0+版本，你可以按照以下步骤操作： 1. **下载安装包**: - 访问Tesseract OCR的官方GitHub页面：...