五分钟，零基础也能入门 Python 图像文字识别

最新推荐文章于 2024-05-09 09:38:26 发布

bagell

最新推荐文章于 2024-05-09 09:38:26 发布

阅读量1.6k

点赞数 22

文章标签： python 开发语言

本文链接：https://blog.csdn.net/bagell/article/details/137083077

版权

一. 前言

最近在研究 Python 的一些功能，也尝试了一些有趣实现，这一篇就从实践的角度来研究一下 Python 如何实现图片识别。

众所周知， Python 的库真的老多了，其中在图像识别上比较突出的就是 OpenCV.

那么基于这个库我们能实现什么功能呢？

二. 参与对象简介

OpenCV ：一个开源的跨平台计算机视觉库 , 支持 C++ ,Java 和 Python
- 包括图片的读取 ，写入 ，转换 ，图像增强 ， 特征提取等等
Tesseract ：光学字符识别 (OCR) 的开源引擎，用于讲图像转换为可读的文本

三. 简单使用

3.1 环境准备

java
复制代码
// S1 : 安装依赖
pip install numpy matplotlib

// S2 : 安装 OpenCV
pip install opencv-python

// S3 : 安装物理机上面的 tesseract
https://github.com/UB-Mannheim/tesseract/wiki

- PS : 此处默认使用的是 English 语言包 ，如果需要中文，这里要下载新的语言包
- https://tesseract-ocr.github.io/tessdoc/Data-Files.html
- 下载完成后把文件解压到 /Tesseract-OCR/tessdata 中 

// S4 ：准备环境变量
@ https://blog.csdn.net/qq_40147863/article/details/82285920
- 环境变量 系统变量 和 用户变量 里面 加上对应的 Path 即可

## S4 : 安装 Python OCR 识别 
pip install pytesseract


//============================
// 扩展功能 ：

// 测试一 ： 中文包安装情况
> tesseract --list-langs 
- 如果中文包安装成功，就可以看到多个结果

3.2 初代代码展示

python
复制代码
import cv2
import os
import pytesseract

# S1 : 读取图片
image_path = "C:\Users\zzg\Desktop\test.png"

# S2 : 识别图片
image = cv2.imread(image_path)

# S3 : 使用 OCR 识别文字
text = pytesseract.image_to_string(image,lang='chi_sim')

# 打印文字
print("识别出文字内容:"+text)

❗如果此时未优化执行的情况下，大概率是识别不出来的
❓主要原因在于图片没有做合适的处理，或者语言包未加载

对于英文文字，使用英文模型的效果还是很好的，一段复杂的代码基本上能够识别清楚
对于中文文字 ，整体效果就比较差了

识别了又好像没识别，这说明在不进行任何优化的前提下，文字识别的准确率并不高。所以在生产上使用之前，我们要在代码和模型层面进行一定的优化，以达到预期的效果。

四. 深入原理

4.1 什么叫灰度化？

将一幅彩色图像转换为灰度图像的过程，一般情况下灰度图像只会包含一个通道。

java
复制代码
// 灰度化图像 
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

// 展示图像
cv2.imshow("Image", gray_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

问题一：通道是什么？

图像中有很多分量用来描述一些信息 ，常见的有颜色通道，深度通道 , alpha 通道等。

一般常规的彩色图像包含三个颜色通道：红色、绿色和蓝色（或多或少都听过，这就是三原色）。

问题二：为什么要灰度化？

三通道颜色过于复杂，处理难度更大
通过灰度图像消除颜色信息的干扰
避免光照，文字颜色，背景对识别的影响

4.2 什么是语言包

之前在环境配置的时候也提到过，为了更好的识别中文，需要添加语言包。

Tesseract 的语言包可以帮助 Tesseract 引擎识别特定语言文本的模型文件。

我们需要下载特定的语言包，放在 tessdata 目录下即可。 Tesseract 可以同时兼容多个语言包。也可以自己训练语言包。

@ tesseract-ocr.github.io/tessdoc/Dat…

4.3 优化图像的方式

如果真的需要深度使用，建议认真阅读官方文档，在官方文档中提供了大量提高质量的案例：

其中常见的方式包括：

重新缩放 ：修改图片的尺寸，通过这种方式扩大图片的间隔，提高识别率
二值化 ：灰度化就是二值化的一种，目的是减少复杂的颜色
降噪

通常最常见的就是图像的缩放处理

解决的方案是对图片进行缩放或者切割，首先我们看一下图像缩放后的效果：

原本以为还需要优化很久，但是简单扩大一下效果就很明显了

4.4 技术原理

Tesseract 同样是一种基于机器学习计算的实现功能，在使用上一样基于大模型实现。

Tesseract 基于卷积神经网络 (CNN) 的模型
Tesseract 通过不同的组件计算模型文件，可以计算单语言模型文件，也可以计算多语言模型文件
在使用时，可以使用多个 .traineddata 文件进行分析
入门阶段就不涉及模型的训练了，毕竟我也还不会

五. 最终结果

java
复制代码
import cv2
import os
import pytesseract


# 读取图片
image_path = "C:\Users\zzg\Desktop\test2.png"
# 检查文件是否存在
if not os.path.isfile(image_path):
    print("错误：图像文件未找到！")
    exit()

image = cv2.imread(image_path)

# 灰度化图片
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 对图片进行缩放
image_big = cv2.resize(gray_image, dsize=(None, None), fx=3, fy=3, interpolation=cv2.INTER_CUBIC)

# 降噪图片
denoised_image = cv2.GaussianBlur(image_big, (5, 5), 0)

# 使用 OCR 识别文字
text = pytesseract.image_to_string( denoised_image,lang='chi_sim')

# 打印文字
print("识别出文字内容:"+text)

总结

这篇是第一篇学习的文档，重在了解这种使用方式。

后续会扩展到 复杂图像 以及 业务级使用。欢迎关注。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码免费领取【保证100%免费】

bagell

关注

22
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
五分钟，零基础也能入门 Python 图像文字识别

OpenCV：一个开源的跨平台计算机视觉库 , 支持 C++ ,Java 和 Python包括图片的读取写入转换图像增强特征提取等等Tesseract：光学字符识别 (OCR) 的开源引擎，用于讲图像转换为可读的文本之前在环境配置的时候也提到过，为了更好的识别中文，需要添加语言包。Tesseract 的语言包可以帮助 Tesseract 引擎识别特定语言文本的模型文件。我们需要下载特定的语言包，放在tessdata目录下即可。Tesseract 可以同时兼容多个语言包。也可以自己训练语言包。
复制链接

扫一扫