基于python/opencv/tesseract使用传统方法的，表格图片版面分析以及印刷体汉字识别（持续更新，学习备份用）

立鸿鹄志做奋斗者

于 2019-07-25 22:29:42 发布

阅读量1.6k

点赞数 3

本文链接：https://blog.csdn.net/weixin_42356758/article/details/97310267

版权

这篇博客详细介绍了如何利用Python结合OpenCV库进行图像处理，以及通过Tesseract OCR工具进行印刷体汉字的识别，特别关注了表格图片的版面分析。博主将持续更新，作为学习和备份的资料。

摘要由CSDN通过智能技术生成

基于python/opencv/tesseract使用传统方法的，表格图片版面分析以及印刷体汉字识别（持续更新，学习备份用）

import cv2
import numpy as np
import pytesseract

image = cv2.imread('img-625101042_1.jpeg', 1)
print(image.shape)
#二值化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
binary = cv2.adaptiveThreshold(~gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 35, -5)
#ret,binary = cv2.threshold(~gray, 127, 255, cv2.THRESH_BINARY)
#cv2.imshow("cell", binary)
#cv2.waitKey(0)

rows,cols=binary.shape
scale = 40
#识别横线
kernel  = cv2.getStructuringElement(cv2.MORPH_RECT,(cols//scale,1))
eroded = cv2.erode(binary,kernel,iterations = 1)
#cv2.imshow("Eroded Image",eroded)
dilatedcol