【全网独家】OpenCV C++ 图像处理实战：OCR字符识别（代码+测试部署）

鱼弦

于 2024-08-19 13:45:00 发布

阅读量633

点赞数 20

分类专栏：人工智能时代文章标签： opencv c++ 图像处理

本文链接：https://blog.csdn.net/feng1790291543/article/details/140977983

版权

人工智能时代专栏收录该内容

2 篇文章 1 订阅

订阅专栏

一、介绍

OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换成机器可读文本的技术。它在自动化办公、文档管理、身份验证等领域得到广泛应用。

二、应用使用场景

文档数字化：将纸质文档转换成电子文本。
车牌识别：用于停车场管理或交通监控。
手写体识别：应用于平板电脑、智能手机上的手写输入。
票据扫描：银行票据、发票等金融单据的自动处理。

三、原理解释

OCR通过以下几个步骤将图像中的文字识别出来：

预处理：包括灰度化、二值化、去噪等操作，提升图像质量。
字符分割：将图像中的文字部分切分出来。
特征提取：从每个字符图像中提取出有代表性的特征。
字符识别：利用训练好的模型，将特征映射为相应的字符。

下面是一些示例代码，用于实现文档数字化、车牌识别、手写体识别和票据扫描的基本功能。

文档数字化

from PIL import Image
import pytesseract

# 将图像加载到程序中
image = Image.open('document.jpg')

# 使用 tesseract 进行 OCR 处理
text = pytesseract.image_to_string(image)

print(text)

车牌识别

import cv2
import numpy as np
import pytesseract

# 加载图像
image = cv2.imread('car_plate.jpg')

# 灰度处理
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 边缘检测
edged = cv2.Canny(gray_image, 30, 200)

# 查找轮廓
contours, _ = cv2.findContours(edged.copy(), cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

# 假定找到的最大轮廓是车牌
contour = sorted(contours, key=cv2.contourArea, reverse=True)[0]

# 创建一个掩膜只显示车牌区域
mask = np.zeros_like(gray_image)
cv2.drawContours(mask, [contour], -1, 255, -1)

# 应用掩膜到原始图像
masked_image = cv2.bitwise_and(image, image, mask=mask)

# OCR 识别
text = pytesseract.image_to_string(masked_image)

print("车牌号:", text)

手写体识别

import cv2
import pytesseract

# 加载图像
image = cv2.imread('handwritten_note.jpg')

# 转换为灰度图像
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 二值化处理
_, threshold_image = cv2.threshold(gray_image, 128, 255, cv2.THRESH_BINARY)

# OCR 识别
text = pytesseract.image_to_string(threshold_image, config='--psm 6')

print("手写内容:", text)

票据扫描

import cv2
import pytesseract

# 加载图像
image = cv2.imread('invoice.jpg')

# 转换为灰度图像
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 二值化处理
_, threshold_image = cv2.threshold(gray_image, 128, 255, cv2.THRESH_BINARY)

# OCR 识别
text = pytesseract.image_to_string(threshold_image)

print("票据信息:", text)

依赖库安装

这些示例代码依赖以下 Python 库：

opencv-python：用于图像处理
pytesseract：用于 Tesseract OCR

可以使用以下命令安装：

pip install opencv-python pytesseract pillow

此外，还需要安装 Tesseract OCR 引擎，可以通过以下命令安装：

对于 Ubuntu：
```
sudo apt-get install tesseract-ocr
```
对于 macOS（使用 Homebrew）：
```
brew install tesseract
```
对于 Windows，请从这里下载并安装。

四、算法原理流程图

五、算法原理解释

预处理：
- 灰度化：将彩色图像转换为灰度图像，减少计算量。
- 二值化：将灰度图像转换为黑白图像，凸显字符。
- 去噪：采用中值滤波等方法去除图像噪声。
字符分割：
- 利用连通域分析，分离出每个独立的字符区域。
特征提取：
- 常用的方法有几何特征提取、Gabor滤波器、HOG描述符等。
字符识别：
- 通过训练好的机器学习模型（如SVM、神经网络）进行字符分类。

六、实际应用代码示例实现

#include <opencv2/opencv.hpp>
#include <tesseract/baseapi.h>

int main() {
    // 读取图像
    cv::Mat img = cv::imread("image.png");
    if (img.empty()) {
        std::cerr << "Image not loaded!" << std::endl;
        return -1;
    }

    // 转换为灰度图像
    cv::Mat gray;
    cv::cvtColor(img, gray, cv::COLOR_BGR2GRAY);

    // 应用二值化
    cv::threshold(gray, gray, 0, 255, cv::THRESH_BINARY | cv::THRESH_OTSU);

    // 初始化Tesseract OCR引擎
    tesseract::TessBaseAPI ocr;
    if (ocr.Init(NULL, "eng", tesseract::OEM_LSTM_ONLY)) {
        std::cerr << "Could not initialize tesseract." << std::endl;
        return -1;
    }

    ocr.SetImage(gray.data, gray.cols, gray.rows, 1, gray.step);
    
    // 获取OCR结果
    std::string text = ocr.GetUTF8Text();
    std::cout << "OCR Output: " << text << std::endl;

    ocr.End();
    return 0;
}

七、测试代码

可以使用包含多种字体和背景的测试图像来验证程序的效果，并对比其准确性。

八、部署场景

云端部署：将OCR识别服务部署到云服务器上，通过API接口提供服务。
边缘设备：在低功耗设备（如智能手机、嵌入式系统）上部署OCR功能，保证实时性。

九、材料链接

十、总结

OCR技术极大地提升了文档处理和信息检索的效率。在实际应用中，可以根据具体需求选择不同的预处理方法和识别算法，以提高识别准确性和速度。

十一、未来展望

随着深度学习的发展，OCR技术将变得更加高效和精确。未来可能会出现更多适用于复杂场景的OCR解决方案，如识别不同语言、处理手写体等。

鱼弦

关注

20
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
【全网独家】OpenCV C++ 图像处理实战：OCR字符识别（代码+测试部署）

OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换成机器可读文本的技术。它在自动化办公、文档管理、身份验证等领域得到广泛应用。OCR技术极大地提升了文档处理和信息检索的效率。在实际应用中，可以根据具体需求选择不同的预处理方法和识别算法，以提高识别准确性和速度。
复制链接

扫一扫