提高计算机视觉任务的图像质量

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

介绍

当我们开始从事任何基于计算机视觉的任务时,我们所有人都面临的几个问题是,要么是缺乏数据,要么是数据质量的问题。

数据量较少仍然只有两种可能的解决方案,一种是尝试获取更多数据或继续使用不同的增强技术,但是当我们谈论数据质量时,数据质量差异很大,因为在某些限制性的指导原则下,你不会点击所有的图像。用户可以在不同的光照条件、不同的角度和 DPI 下单击图像,因此提出一种适用于所有这些的理想图像增强技术是一种 NP 难题。

因此,有一组方法主要用于增强计算机视觉任务的图像质量,例如对象检测、图像分类、OCR 等。我们将通过示例图像并应用各种增强技术来一一讨论它们.

我们将在本文中讨论的技术如下:

  1. 二值化/阈值化

  2. 降噪

  3. 纠偏

  4. 重新缩放

  5. 形态学操作

  6. 为了尝试这些操作,我们将使用Python3语言及其两个库, PillowOpenCV

二值化

此技术用于将图像从 RGB 转换为单色(黑白),通常称为**阈值处理。**该技术主要用于需要白底黑字的 OCR 任务。

OCR 模型在白底黑字的图像上进行训练,以提高准确性,因此对图像进行二值化有助于提高 OCR 模型的质量。二值化图像还有助于节省空间并加快处理速度,因为与其他多通道图像格式相比,它只有一个颜色通道。

OpenCV 库提供了多种类型的二值化技术。

1. 二进制阈值:这是最简单的一个,我们必须定义一个阈值,低于该阈值,所有像素值都被转换为黑色,其余的像素值会转换为白色,从而得到二值化图像,你可以使用以下代码片段来对图像进行二进制阈值处理。

## import dependencies
import cv2
from PIL import Image
import matplotlib.pyplot as plt
## reading image
img = cv2.imread('text_document.jpg',0)
## apply binary thresholding
ret,thresh1 = cv2.threshold(img,170,255,cv2.THRESH_BINARY)
## plot original and binarised image 
titles = ['Original Image', 'Binary Thresholding']
images = [img, thresh1]
for i in range(2):
    plt.figure(figsize=(20,20))
    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)
    plt.title(titles[i])
    plt.xticks([]),plt.yticks([])

上面的代码将产生以下图像:

b43ea9463b7b6f8d05f67b62ab3375fe.png

2. 自适应阈值:与二元阈值法不同,该方法根据像素值的小周围区域来确定其阈值。这种方法也有两种类型:

  • 自适应阈值均值:阈值是平均值附近区域减去固定的Ç

  • 自适应高斯阈值:阈值是邻域值减去常数C的高斯加权总和。

该方法主要用于去除图像中的不同光照条件,因为我们根据其周围区域获得像素值。

## import dependencies

import cv2

from PIL import Image

import matplotlib.pyplot as plt

## reading image

img = cv2.imread('lighting_conditions.jpg', 0)

## apply adaptive thresholding 

## adaptive mean thresholding 

th1 = cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_MEAN_C,

            cv2.THRESH_BINARY,11,2)

## adaptive gaussian thresholding

th2 = cv2.adaptiveThreshold(img,255,cv2.ADAPTIVE_THRESH_GAUSSIAN_C,

            cv2.THRESH_BINARY,11,2)

## plot original and binarised image 

titles = ['Original Image', 'Adaptive Mean Thresholding', 'Adaptive Gaussian Thresholding']

images = [img, th1, th2]

plt.figure(figsize=(20,20))

for i in range(3):

    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)

    plt.title(titles[i])

    plt.xticks([]),plt.yticks([])

上述代码的输出如下:

59aa94547d1fd760b338e8be4ea0cf5b.png

3. Otsu's Binrisation:该方法不需要任何阈值参数,因为它会自动确定。此方法通过创建所有像素值的直方图,然后从中计算平均值来确定阈值。

## import dependencies

import cv2

from PIL import Image

import matplotlib.pyplot as plt

## reading image

img = cv2.imread('lighting_conditions.jpg', 0)

## apply Otru's thresholding

ret3,th1 = cv2.threshold(img,0,255,cv2.THRESH_BINARY+cv2.THRESH_OTSU)

## plot original and binarised image 

titles = ["Original Image", "Binary Otsu's Thresholding"]

images = [img, th1]

plt.figure(figsize=(20,20))

for i in range(2):

    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)

    plt.title(titles[i])

    plt.xticks([]),plt.yticks([])

上述代码的输出如下:

a1be657f437bfa5a0050b16c813ea941.png

降噪

大多数计算机视觉任务失败的最重要因素是噪声。噪声可以是高斯噪声(由于不同的光照条件而产生)和椒盐噪声(稀疏的明暗干扰)。

有时图像对人眼看起来更好,但是当我们将这些图像传递给任何基于计算机视觉的模型时,例如分类和对象检测,结果都不理想,因为我们想要找到的噪声对象失真,并且可能与模型训练的对象不匹配,因此图像中的噪声会降低模型的准确性。

OpenCV 提供了一个名为 fastNIMeansDenoising() 的函数,它可以平滑图像以减少图像噪声。

## import dependencies

import cv2

from PIL import Image

import matplotlib.pyplot as plt

## reading image

img = cv2.imread('noisy_image.jpg')

## apply image denoising

dst = cv2.fastNlMeansDenoisingColored(img,None,10,10,7,21)

## plot original and denoised image 

titles = ["Original Image", "Denoised Image"]

images = [img, dst]

plt.figure(figsize=(20,20))

for i in range(2):

    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)

    plt.title(titles[i])

    plt.xticks([]),plt.yticks([])

上面的代码将产生以下图像:

8b5fd1deff9fffa23e608b82b7645e5c.png

纠偏

纠偏是从图像中去除偏斜(角度不同于 0)的过程。这个问题没有具体的解决方案。你可能会在网络上找到多种解决方案,但是当你在图像上尝试这些解决方案时,这可能对你没有意义。

所以我建议你训练你自己的基于计算机视觉的模型,创建一个对多角度图像进行分类的分类模型是最好的选择。

重新缩放

重新缩放是放大或缩小图像以改变图像分辨率的过程。当你重新缩放图像时,该图像中的不同像素值将被复制以使其更加像素化,并删除像素值以使其缩小。

此方法主要用于图像分类和对象检测,因为你需要将图像重新缩放到模型输入大小。

假设你正在为猫和狗的类型创建 VGG 分类器,你有一些可能大小不同的图像,因此你无法将这些图像按原样传递给模型,因为模型需要固定的图像大小. 在这种情况下,你需要根据模型的输入尺寸缩小或放大图像尺寸。

重新缩放图像的简单方法如下:

## import dependencies
import cv2
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
## reading image
img = Image.open('noisy_image.jpg')
## apply image rescaling and making image 300x300 (downscaling)
dst = img.resize((50,50))
## plot original and downscaled image
titles = ["Original Image", "Rescaled Image"]
images = [np.asarray(img), np.asarray(dst)]
plt.figure(figsize=(20,20))
for i in range(2):
    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)
    plt.title(titles[i])
    plt.xticks([]),plt.yticks([])

上面的代码将产生以下图像:

140d3ff90f85643a93659d2bb68cf1d3.png

形态学操作

形态学操作是一些用于图像变换的简单操作形式。对于图像变换,输入图像数组与决定操作性质的核相乘。

当你有一些物体的边界看不清楚时,你可以使用形态学操作来扩大它的边界,这将有助于轻松找到物体,同样,如果边界很大,你可以用同样的方法缩小它。这些技术主要用于 ICR,因为它们的文本边界较小,需要放大以便 ICR 模型识别它们。

两种主要的形态学操作如下:

1. 腐蚀:此操作试图腐蚀图像的前景,从而使图像中的白色像素值最小化。腐蚀的程度完全取决于内核的大小以及你应用该内核的迭代次数。内核是一个正方形大小的矩阵,只有 1 和 0 值来生成腐蚀图像。

使用 5×5 矩阵应用于一次迭代的腐蚀如下所示:

## import dependencies
import cv2
from PIL import Image
import matplotlib.pyplot as plt
## reading image
img = cv2.imread('text_document.jpg', 0)
## apply erosion
kernel = np.ones((5,5),np.uint8)
erosion = cv2.erode(img,kernel,iterations = 1)
## plot original and eroded image
titles = ["Original Image", "Eroded Image"]
images = [img, erosion]
plt.figure(figsize=(20,20))
for i in range(2):
    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)
    plt.title(titles[i])
    plt.xticks([]),plt.yticks([])

结果图像如下:

0f30428da1d4717478e15892e38b6ffc.png

2.膨胀:这个操作与腐蚀相反,它试图最大化图像中的白色区域。这也取决于内核大小和迭代次数。

使用 5×5 内核大小进行 1 次迭代的膨胀如下所示:

## import dependencies
import cv2
from PIL import Image
import matplotlib.pyplot as plt
## reading image
img = cv2.imread('text_document.jpg', 0)
## apply dilation
kernel = np.ones((5,5),np.uint8)
dilation = cv2.dilate(img,kernel,iterations = 1)
## plot original and dilated image
titles = ["Original Image", "Dilated Image"]
images = [img, dilation]
plt.figure(figsize=(20,20))
for i in range(2):
    plt.subplot(2,3,i+1),plt.imshow(images[i],'gray',vmin=0,vmax=255)
    plt.title(titles[i])
    plt.xticks([]),plt.yticks([])

43cbb5cbfb29c0ca568df4ca317d14fa.png

这些操作取决于内核大小和值,主要用于为 OCR 模型准备图像。

结论

这些是一些最重要的技术,你可以使用它们来提高图像质量,从而提高基于计算机视觉的模型的准确性。没有选择算法的正确方法,它完全是基于尝试最适合你的数据的方法。

有时,选择可以是单独的,有时你必须使用这些算法的组合,以使你的数据更适合你的算法。总之,如果你的图像质量太差,并且你希望这些算法在这些图像上工作,你会有些不满,因为这些技术可以改善噪声和杂质较少的图像,但对于非常糟糕的图像,它可能不起作用。

现在你可以根据你的用例继续尝试这些操作。

 
 

好消息!

小白学视觉知识星球

开始面向外开放啦👇👇👇

 
 

2db2919f5f53cb9ca274ccebe890e99d.jpeg

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值