玩AI必会——基本图像处理

在深入探索深度学习的图像和视频处理应用之前,对计算机视觉(CV)的基本概念和操作有一个清晰的理解是非常重要的。本文将通过实操的方式,介绍图像在计算机中的表示以及一些基本的图像操作和处理方法。

一、计算机眼中的图像

在计算机的世界里,图像被表示为一个矩阵。灰度图像是一个二维矩阵,而彩色图像则是一个三维矩阵(通常为RGB三个通道)。因此,对图像的操作本质上就是对矩阵的操作。为了进行这些操作,我们需要导入两个重要的库:cv2(OpenCV,用于图像处理)和numpy(用于矩阵操作)。

先读取一张lena照片并显示。

import cv2

import numpy as np

img = cv2.imread('lena.jpg')

cv2.imshow('image', img)

cv2.imshow('image', img)      # 图像的显示,也可以创建多个窗口

cv2.waitKey(0)                # 等待时间,毫秒级,0表示任意键终止

cv2.destroyAllWindows()  

在计算机眼中图像是这样的。

直接打印img,矩阵太大截取一部分。

[[[126 134 223]

  [125 133 222]

  [124 133 223]

  ...

  [128 148 235]

  [120 148 232]

  [ 90 118 202]]

  ...

  [ 85  68 159]

  [ 90  76 172]

  [ 88  75 177]]]

直接打印图像矩阵,可以看到它是一个三维数组,形状为(高度, 宽度, 通道数)。例如,对于lena.jpg,打印img.shape会输出(263, 263, 3),表示图像的长和宽都是263像素,并且有三个通道(RGB)。  

读取视频:

# 打开视频文件或摄像头

vc = cv2.VideoCapture('file.mp4')  

while True:

    # 读取一帧

    ret, frame = vc.read()

    # 检查是否成功读取帧

    if not ret:

        break  # 如果没有读取到帧,退出循环

    # 显示帧

    cv2.imshow('Frame', frame)

    # 按 'q' 键退出,25表示每帧相隔的时间

    if cv2.waitKey(25) & 0xFF == ord('q'):

        break

# 释放资源

vc.release()

cv2.destroyAllWindows()

其中vc.read()用于从视频文件或摄像头捕获的视频流中读取下一帧。

函数返回两个值:ret:一个布尔值,指示是否成功读取帧。如果成功读取帧,ret为True;如果视频结束或发生错误,ret为False。frame:一个 NumPy 数组,表示读取到的帧图像。如果没有成功读取帧,frame为None。

二、图像的基本操作

图像操作就是矩阵操作。

如截取部分图像操作:

img=cv2.imread('lena.jpg')

lena=img[0:50,0:200]

cv2.imshow('image', img)

颜色通道提取:

b,g,r=cv2.split(img)

这里就不赘述了和python基础中矩阵基本运算一样。

三、图像基本处理

(1)图像平滑是一种常见的图像处理技术,用于减少图像中的噪声或细节,从而使图像更加平滑。平滑操作通常通过卷积运算实现,使用特定的滤波器(或称为核)对图像进行处理。

主要有

1.均值滤波(Mean Filtering)

均值滤波是一种简单的平滑技术,它通过计算每个像素周围邻域的平均值来替代该像素的值。这种方法可以有效减少噪声,但可能会导致图像模糊。

主要代码如下(图像输入和显示和上述代码一样):

# 定义均值滤波核(例如3x3)

kernel_size = (3, 3)

mean_kernel = np.ones(kernel_size, np.float32) / 9

# 应用均值滤波

smoothed_image = cv2.filter2D(image, -1, mean_kernel)

2.高斯滤波(Gaussian Filtering)

高斯滤波使用高斯核进行卷积,核中的权重随着与中心像素的距离增加而减小。这种方法可以更有效地减少噪声,同时保留图像的边缘信息。

smoothed_image = cv2.GaussianBlur(image, (5, 5), 0)

3.中值滤波(Median Filtering)

中值滤波通过计算每个像素周围邻域的中值来替代该像素的值。这种方法对去除椒盐噪声特别有效。

smoothed_image = cv2.medianBlur(image, 5)

4.双边滤波(Bilateral Filtering)

双边滤波是一种非线性滤波方法,结合了空间邻近度和像素值相似度,可以在平滑的同时保留边缘信息。

smoothed_image = cv2.bilateralFilter(image, 9, 75, 75)

这四种滤波中均值滤波:简单快速,但可能导致图像模糊;高斯滤波:能有效减少噪声,保留边缘;中值滤波:对椒盐噪声特别有效;双边滤波:在平滑的同时保留边缘信息,但计算复杂度较高。

(2)形态学图像处理是一种基于形状的图像分析方法,广泛应用于图像预处理、分割、特征提取等任务。它通过对图像进行膨胀、腐蚀、开运算、闭运算等基本操作,改变图像中目标物体的形状和结构。形态学操作通常用于二值图像(黑白图像),但也可以扩展到灰度图像。

主要有

1.腐蚀(Erosion)

作用:缩小前景区域,消除小噪声点,分离相连物体。

原理:将结构元素在图像上滑动,只有当结构元素完全覆盖前景像素时,中心像素才保留为前景。

kernel = np.ones((3,3),np.uint8)

erosion = cv2.erode(img,kernel,iterations = 1)

2.膨胀(Dilation)

作用:扩大前景区域,填补小孔洞,连接断裂的物体。

原理:将结构元素在图像上滑动,只要结构元素覆盖的像素中有一个为前景,则中心像素变为前景。

kernel = np.ones((3,3),np.uint8)

dige_erosion = cv2.erode(img,kernel,iterations = 1)

3.开运算(Opening)

定义:先腐蚀后膨胀。

作用:消除小物体、平滑物体边界,同时不显著改变物体面积。

kernel = np.ones((5,5),np.uint8)

opening = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)

4.闭运算(Closing)

定义:先膨胀后腐蚀。

作用:填补小孔洞、连接邻近物体,同时不显著改变物体面积。

kernel = np.ones((5,5),np.uint8)

closing = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)

5.形态学梯度(Morphological Gradient)

定义:膨胀图像减去腐蚀图像。

作用:突出物体边缘。

kernel = np.ones((7,7),np.uint8)

gradient = cv2.morphologyEx(img, cv2.MORPH_GRADIENT, kernel)

6.顶帽变换(Top-hat)

定义:原图像减去开运算结果。

作用:提取图像中的亮细节(如小亮点)。

tophat = cv2.morphologyEx(img, cv2.MORPH_TOPHAT, kernel)

7.黑帽变换(Black-hat)

定义:闭运算结果减去原图像。

作用:提取图像中的暗细节(如小暗点)。

blackhat  = cv2.morphologyEx(img,cv2.MORPH_BLACKHAT, kernel)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值