图像处理和文字识别技术在计算机视觉领域中扮演着重要的角色。OpenCV是一个开源的计算机视觉库,提供了丰富的图像处理函数和算法。而pytesseract则是一个基于Tesseract OCR引擎的Python库,可以实现高精度的文字识别。
本文将介绍如何使用OpenCV和pytesseract库进行图像处理和文字识别,并展示两个简单的示例代码。
识别图片中的中英文并用矩形框框出
使用了pytesseract库的image_to_boxes
函数来进行文字识别,并指定了语言参数为'chi_sim+eng',表示同时支持中文和英文的识别。
image_to_boxes
函数将返回一个包含文字框信息的字符串。每一行代表一个文字框,格式为"<字符 x y width height>"。你可以通过对返回的字符串进行分割和解析,获取每个文字框的坐标信息。
以下是代码:
# 导入必要的库
import cv2
import numpy as np
import pytesseract
a = r'图片路径'
b = r'保存路径'
# 读取图像并转为灰度图
image = cv2.imdecode(np.fromfile(a, dtype=np.uint8), 1)
gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY)
# 二值化
ret,binary = cv2.threshold(gray,150,255,cv2.THRESH_BINARY)
# 检测文字
boxes = pytesseract.image_to_boxes(binary,lang='chi_sim+eng')
# 识别文字位置并框出
for box in boxes.splitlines():
box = box.split(' ')
x,y,w,h = int(box[1]),int(box[2]),int(box[3]),int(box[4])
cv2.rectangle(image,(x,image.shape[0]-y),(w,image.shape[0]-h),(0,0,255),2)
cv2.imencode(b, image)[1].tofile(b)
下面图片是最后识别出的结果:
识别图像中的中英文并绘制在图片上
# 导入库
import cv2
import numpy as np
from PIL import Image,ImageFont,ImageDraw
import pytesseract
def draw_string_boxes(image,x,y,string):
image = cv2.cvtColor(image,cv2.COLOR_BGR2RGB)
image = Image.fromarray(image)
draw = ImageDraw.Draw(image)
font = ImageFont.truetype("simhei.ttf",30,encoding="utf-8")
draw.text((x,y),string,(255,0,0),font=font)
image = cv2.cvtColor(np.array(image),cv2.COLOR_RGB2BGR)
return image
a = r'图片路径'
b = r'保存路径'
image = cv2.imdecode(np.fromfile(a, dtype=np.uint8), 1)
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
ret, binary = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY)
text = pytesseract.image_to_string(binary, lang='chi_sim+eng')
image = draw_string_boxes(image,30,300,text)
cv2.imencode(b, image)[1].tofile(b)