一、正常读取磁盘图片使用 teesseract 进行简单的文字识别
首先要安装 pytesseract
之后要安装 TesseractOCR
非摄像头版本 Python + tesseractocr 的文本识别方案参考:https://blog.csdn.net/u014361280/article/details/105110506
二、外接USB摄像头文本识别 TesseractOCR
import cv2 as cv
from PIL import Image
import pytesseract as tess
cap = cv.VideoCapture(0)
cap.set(cv.CAP_PROP_FPS, 20)
def recoginse_text(img):
# 步骤:
# 1、灰度,二值化处理
# 2、形态学操作去噪
# 3、识别
# :param image:
# :return:
# 灰度 二值化
gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
# 如果是白底黑字 建议 _INV
ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV | cv.THRESH_OTSU)
# 形态学操作 (根据需要设置参数(1,2))
kernel = cv.getStructuringElement(cv.MORPH_RECT, (1, 2)) # 去除横向细线
morph1 = cv.morphologyEx(binary, cv.MORPH_OPEN, kernel)
kernel = cv.getStructuringElement(cv.MORPH_RECT, (2, 1)) # 去除纵向细线
morph2 = cv.morphologyEx(morph1, cv.MORPH_OPEN, kernel)
cv.imshow("Morph", morph2)
# 黑底白字取非,变为白底黑字(便于pytesseract 识别)
cv.bitwise_not(morph2, morph2)
textImage = Image.fromarray(morph2)
# 图片转文字
text = tess.image_to_string(textImage)
print("识别结果:%s" % text)
while True:
ret, img = cap.read()
# 识别
recoginse_text(img)
if cv.waitKey(10) == ord("q"):
break
cv.waitKey(0)
cv.destroyAllWindows()
简化版本,直接在原图像上进行识别,识别率很低,但是速度快了不少。
import cv2 as cv
from PIL import Image
import pytesseract as tess
cap = cv.VideoCapture(0)
cap.set(cv.CAP_PROP_FPS, 20)
while True:
ret, img = cap.read()
# 识别
# recoginse_text(img)
cv.imshow("Morph", img)
text = tess.image_to_string(img)
print("识别结果:%s" % text)
if cv.waitKey(10) == ord("q"):
break
cv.waitKey(0)
cv.destroyAllWindows()
三、改进版
Windows台式机下 CPU跑传统方法,识别率较低。速度较慢。
待研究