一、业务需求
本人也是python的初学者,在工作中接触一些简单的人工智能。因为工作关系,需要从系统提供的屏幕截图中识别系统菜单中的文字,该文字有一明显特征,就是橘色的高亮文字。那么需求就是从一个图片文件中识别里面的橘色高亮文字。识别图片样例:
二、设计思路
对样例图片进行分析,发现图片比较简单,没有太多颜色混杂在一起,主要是黑色字体、高亮的橘色字体这2两种字体组成。这样就给解决方案带来了很多便利性,设计思路大概如需:
- 分割图片:找到样例图片中的字块,进行分割,获取图片字块的像素坐标;
- 获取图片字块中的颜色:对图片字块中的颜色进行识别,找出属于橘色系的颜色部分,如果颜色区域的面积大于一个预设的阈值,就可以判断该图块的字体颜色符合预期。
三、分割图片
1、使用opencv,将图片转换为二值图,方便进行下面的处理
import cv2
import numpy as np
import matplotlib.pyplot as plt
image = cv2.imread('x4.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) # 转换了灰度化
ret, img = cv2.threshold(gray, 160, 255, cv2.THRESH_BINARY) # 将灰度图像二值化
img = 255 - img
cv2.imshow("img", img)
cv2.waitKey()
二值化的图片:
2、然后进行腐蚀图片。腐蚀图片的意义就不在这里赘述了,大家有兴趣的自行百度搜索吧。
kernel = cv2.getStructuringElement(cv2.MORPH_CROSS, (7, 7))
img = cv2.dilate(img, kernel)
h, w = img.shape
cv2.imshow("img", img)
cv2.waitKey()