Python 用 Tesseract识别图片提取文本

最新推荐文章于 2023-01-29 00:13:15 发布

爱打球的白师傅

最新推荐文章于 2023-01-29 00:13:15 发布

阅读量778

点赞数

文章标签： python tesseract

本文链接：https://blog.csdn.net/babing18258840900/article/details/88528145

版权

环境: win10，python3.7，vs code；

首先下载tesseract

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

我装在了F盘在路径下敲命令

tesseract –v 可以看版本号

tesseract --list-langs　　查看Tesseract-OCR支持语言

下好后需要改文件

找到python路径下 Lib\site-packages\pytesseract\pytesseract.py

将#tesseract_cmd = 'tesseract'
改为：tesseract_cmd = 'F:/Tesseract-OCR/tesseract.exe'(目录根据自己tesseract的安装路径而定)

在系统变量path中追加 F:\Tesseract-OCR\tessdata

新建变量 TESSDATA_PREFIX

接下来就可以在python代码中尝试了

图片为：

结果：

感觉效果一般

如果想识别其他语言，可以从语言库中下载，地址:https://github.com/tesseract-ocr/tessdata

将下好的.traineddata放到tessdata目录下

接下来就可以用chi_sim（中文简体解析）

参考文章：https://www.cnblogs.com/qq21270/p/7704952.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱打球的白师傅

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python使用pytesseract进行验证码图像识别

Cameback_Tang的博客

04-18

1万+

借助OCR软件tesseract及其接口pytesseract来简单玩一下验证码图片识别。使用Image.open() 和 cv2.imread() 读入图片，并用pytesseract来进行英文数字验证码图片的识别测试，通过获取网站的验证码并进行模拟登录来进行验证测试，也简单地处理图片来进行识别，对比不同处理方式图片的识别效果。

python批量识别图片指定区域文字内容

01-20

Python批量识别图片指定区域文字内容，供大家参考，具体内容如下简介对于一张图片，需求识别指定区域的内容 1.截取原始图上的指定图片当做模板 2.根据模板相似度去再原始图片上识别准确坐标 3.根据坐标剪切出指定位置图片，也就是所需的内容区域 4.对指定位置图片进行ocr识别环境 Ubuntu18.04 Python2.7 所需Python模块 1.aircv 用于识别模板再原始图的位置坐标 pip install aircv 2.Pillow 用于剪裁图片 pip install Pillow 3.Tesseract 文字识别在此也可以用平台端的API进行更精准的识别 u

参与评论您还未登录，请先登录后发表或查看评论

Tesseract + Python实现ORC识别.zip

11-03

使用python版的Tesseract 实现ORC识别

【安装】Python中使用pytesseract进行图片文字识别

qq_36926037的博客

03-16

440

（1）安装 1.1：下载ocr识别的工具包 https://digi.bib.uni-mannheim.de/tesseract/ 1.2 配置环境变量。例E:\Program Files (x86)\Tesseract-OCR （2）问题 2.1：：已经安装了pillow但是报错import PIL 或者from PIL import Image出错的处理. 解决： pip uninstal...

python 包的使用（二）——tesseract识别图片中的文字

weixin_34294649的博客

10-21

110

https://blog.csdn.net/weixin_41988628/article/details/80653245?utm_source=blogxgwz0

Python-图片识别发票识别

08-10

此项目用于对中国购车发票进行内容识别,目前完成的是身份证,vin,发动机号,价格的识别提供了展示的demo页,以及提供了传入文件,路径,base64码的多种方式调用的api,返回识别出来的json数据

Python通过Tesseract库实现文字识别

09-17

本文旨在深入探讨如何使用Python结合Tesseract库来进行文字识别，并通过具体示例代码展示其实现过程。 #### 二、Tesseract OCR库简介 Tesseract OCR是由Google维护和支持的一款开源OCR引擎，以其高度准确性、灵活性...

python识别图像并提取文字的实现方法

12-25

python图像识别一般基础到的就是tesseract了，在爬虫中处理验证码广泛使用。安装安装教程网上大都差不多，Windows下确实比较麻烦，涉及到各种路径、环境变量甚至与linux不同的路径分隔符，所以这里的安装是基于...

python识别提取图片jpg中指定位置的文字，并修改文件名为改文字

06-07

在本项目中，我们主要探讨如何使用Python编程语言结合OCR（Optical Character Recognition，光学字符识别）技术来识别并提取图片中的文字，并根据提取到的文字信息来修改图片文件的名称。这个过程对于处理大量含有...

python利用Tesseract识别验证码的方法示例

09-19

### Python 利用 Tesseract 识别验证码的方法示例 #### 一、引言随着互联网技术的发展，验证码...以上就是关于使用Python和Tesseract识别验证码的相关知识点和技术细节，希望能帮助大家更好地理解和掌握这一技能。

pytesseract 安装错误总结

最新发布

入门记

01-29

2042

错误提醒：pytesseract requires Python '>=3.7' but the running Python is 3.6.4 pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is

opencv--tesseract文档扫描OCR识别（VScode实现）

weixin_43694742的博客

11-15

719

.exe下载和环境配置参考博文 # https://digi.bib.uni-mannheim.de/tesseract/ # 配置环境变量如E:\Program Files (x86)\Tesseract-OCR # tesseract -v进行测试 # tesseract XXX.png 得到结果 # pip install pytesseract # anaconda lib site-packges pytesseract pytesseract.py # tesseract_cmd 修改为绝对路

Python 图像文字识别提取的两种简单方案(Windows)

谨笃行之的博客

03-21

1万+

百度文字识别API参考：https://www.jianshu.com/p/816cc6ef571b 本地tesseract_ocr参考：https://blog.csdn.net/jclian91/article/details/80628188https://www.cnblogs.com/lizhe860/p/8969171.html 最终经过对比，百度云这个API整体识别率更高~~...

用VsCode写Python，代码提示代码规范方法

qq_43595237的博客

11-23

3万+

在使用Python 开发的时候，一款好的编辑器简直可以提高代码效率以及质量好几倍。而Vs Code 就是一个不错的选择。你值得拥有。而且还支持markdown，其他各种各样的语言当然，最主要的还是好看效果图： https://code.visualstudio.com/ VS下载地址安装python插件打开VScode，Ctrl+p 输入 “ext install python”...

Python 技术篇-3行代码搞定图像文字识别，pytesseract库实现

小蓝枣的博客

06-05

4万+

我们需要 pillow 和 pytesseract 这两个库，pip install 安装就好。还需要安装 Tesseract-OCR.exe 然后配置下就好了。具体的环境配置方法请看 python 技术篇-使用pytesseract库进行图像识别之环境配置。 Python 技术篇-3行代码搞定图像文字识别，pytesseract库实现

【python】【文字识别】利用pytesseract、PIL包提取图片文字

weixin_42046939的博客

03-06

839

本文的目的是为了提取图片中的文字，图片如下所示：第一：首先保证有这两个包：pytesseract、PIL 直接pip即可；第二：网上找资源，下载tesseract-ocr；【微软本已经下载成功，存放目录如下：】安装tesseract-ocr；【默认路径：C:\Program Files (x86)\Tesseract-OCR】环境配置；【将上述路径配置进去】将安装包中的中...

python 图片二值化处理（处理后为纯黑白的图片）