OpenCv-图像基础

玉木子

已于 2025-04-26 13:43:31 修改

阅读量931

点赞数 20

文章标签： opencv 人工智能计算机视觉

于 2025-04-12 11:57:43 首次发布

本文链接：https://blog.csdn.net/2302_80301538/article/details/147162416

版权

一、OpenCV介绍

OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列 C++ 类和函数构成，用于图像处理、计算机视觉领域的算法实现。

1 OpenCV优势

开源免费：完全开源，可以自由使用，降低开发成本和技术门槛。

多语言支持：除C++原生接口外，还支持Java、Python等编程语言。

跨平台：支持多种操作系统，Windows、Linux、ios、Android等，方便开发和部署。

丰富API：完善的传统计算机视觉算法，涵盖主流的机器学习算法，同时添加了对深度学习的支持。

1.2 OpenCV-Python

OpenCV-Python是原始OpenCV C++实现的Python包装器。它结合了 OpenCV C++ API 的高性能与 Python 语言的易用性和简洁性。通过 OpenCV-Python，开发者可以轻松地进行图像处理、计算机视觉任务以及机器学习应用。

与C / C++等语言相比，Python速度较慢。Python可以使用C / C++扩展，这使我们可以在C / C++中编写计算密集型代码，并创建可用作Python模块的Python包装器。两个好处：首先，代码与原始C / C++代码一样快（因为它是在后台工作的实际C++代码），其次，在Python中编写代码比使用C / C++更容易。

OpenCV-Python使用Numpy，这是一个高度优化的数据库操作库。所有OpenCV数组结构都转换为Numpy数组。这也使得与使用Numpy的其他库（如SciPy和Matplotlib）集成更容易。

二、图像表示

像素是图像的基本单元，每个像素存储着图像的颜色、亮度和其他特征。一系列像素组合到一起就形成了完整的图像，在计算机中，图像以像素的形式存在并采用二进制格式进行存储。根据图像的颜色不同，每个像素可以用不同的二进制数表示。

计算机采用0/1编码的系统，数字图像也是利用0/1来记录信息，我们平常接触的图像都是8位数图像。opencv中常用的是8位图像,大多数彩色和灰度图像使用8位表示每个通道的像素值，范围从0到255，其中0，代表最黑，1，表示最白。

日常生活中常见的图像是RGB三原色图。RGB图上的每个点都是由红（R）、绿（G）、蓝（B）三个颜色按照一定比例混合而成的，几乎所有颜色都可以通过这三种颜色按照不同比例调配而成。在计算机中，RGB三种颜色被称为RGB三通道，每个通道的取值都是0-255，根据这三个通道存储的像素值，来对应不同的颜色。

三、图像存储

在OpenCV中，无论是读取还是创建图像，结果都是一个NumPy数组。

彩色图像：三维数组，三通道，BGR。

灰度图像：二维，单通道。

图像本质上是像素值的二维或三维矩阵（对于彩色图像）。像素是图像的基本单元，范围0~255。

形状（Shape）：图像的尺寸由其高（height）、宽（width）和通道数（channels）决定。可以通过img.shape属性获取这些信息。

对于彩色图像（如RGB），返回的是一个包含三个值的元组 (height, width, channels)。

对于灰度图像，返回的是一个包含两个值的元组 (height, width)，因为灰度图像只有一个通道。

数据类型（dtype）：图像中的每个像素值的数据类型决定了可以存储的最大值。例如，8位无符号整数（uint8）允许的范围是从0到255。

像素表示：单通道图像（灰度图像）：每个像素由一个数值表示，代表该点的亮度。值越低（接近0），颜色越暗；值越高（接近255），颜色越亮。

多通道图像（彩色图像）：在OpenCV中，默认情况下，彩色图像是以BGR（蓝-绿-红）顺序存储。

彩色图像：每个像素通常是由红（R）、绿（G）、蓝（B）三个分量来表示的，分量介于（0，255）。RGB图像每一个像素的颜色值（由RGB三原色表示）直接存放在图像矩阵中，由于每一像素的颜色需由R、G、B三个分量来表示，M、N分别表示图像的行列数，三个M x N的二维矩阵分别表示各个像素的R、G、B三个颜色分量。RGB图像的数据类型一般为8位无符号整形，通常用于表示和存放彩色图像。

生成一个512*512大小的彩色图片每一个像素点随机颜色。

四、基本图像操作

4.1 创建窗体

cv2.namedWindow(winname [,窗口属性])

使用 cv2.namedWindow() 方法创建一个新的窗口，可以为这个窗口指定一个名称，并且可以选择窗口的属性（例如，是否可调整大小）。
参数：

winname：窗口名

窗口属性：窗口大小是否可调整

cv2.WINDOW_AUTOSIZE：默认，窗口会根据加载的图像自动调整到合适的大小，并且用户不能拖动窗口边缘来调整窗口大小。

cv2.WINDOW_NORMAL：窗口大小是可调整的，用户可以通过鼠标拖动窗口边缘来自由改变窗口大小。

4.2 读取图像

cv2.imread(path [,读取方式])

参数：

filename：图像路径

读取方式：彩色·默认、灰色等

./ 表示当前目录。

../ 表示当前目录的上一级目录（即父目录）。当需要引用或访问当前目录所在位置的上一层目录中的文件或文件夹时使用 ../。

4.3 显示图像

cv2.imshow(winname,img)

参数：

winname：显示图像的窗口名，以字符串类型表示

img：要显示的图像

cv.waitKey(0)：表示无限期地等待任何键盘按键。这种用法常见于图像显示窗口中，确保图像在窗口中显示直到用户决定关闭它。

cv.waitKey(n)：n>0,意味着程序将等待n毫秒。这种方式常用于视频播放或实时摄像头捕获场景，以便控制每一帧停留的时间，同时允许用户通过按键来中断循环或发出命令。

cv2.destroyAllWindows([winname])

cv2.destroyAllWindows()：会在当前程序执行到该语句时立即销毁打开的窗口，并释放与这些窗口相关的资源。

winname：窗口名，关闭指定名称的窗口。可省略，销毁所有已打开的窗口。

注意：在调用显示图像的API后，要调用cv2.waitKey(0)给图像绘制留下时间，否则窗口会出现无响应情况，并且图像无法显示出来。

4.4 保存图像

cv2.imwrite(path,img)

参数：

path：图片保存的路径和图片名

img：要保存的图像

4.1~4.4总结代码：

import cv2 as cv

#当前路径，读取图像：cv2,imread(路径.读取方式）

#创建窗体，cv.nameWindow(窗口名.属性）

img = cv.imread("./image/cat1.png")

img2 = cv.imread("./image/cat1.png")

cv.namedWindow("mywindow", cv.WINDOW_AUTOSIZE)#默认窗口大小不可调整

cv.namedWindow("window1", cv.WINDOW_NORMAL)#显示图像，cv2.imshow(窗口名.要显示的图像)

cv.imshow("mywindow", img)

cv.imshow("window1", img)

cv.imwrite("./image/cat2.png", img2)#保存图像：cv2.imwrite(路径.图像）

cv.imshow("img", img)

cv.imshow("img2", img2)

cv.waitKey(0)#没有提前创建窗体，则自动创建窗体。

cv.waitKey(0)

cv.destroyAllWindows()

4.5 创建黑白图像、随机像素图像

numpy.zeros((height,width,channels),dtype=np. uint8)

使用np.zeros()创建全黑图像，再修改像素值成为全白图像。

import cv2 as cv

import numpy as np

#定义图像宽高和通道数

h=480

w=520

c=3

#使用np.zeros创造全零矩阵，黑色图像

black_img=np.zeros((h,w,c),dtype=np.uint8)

print(black_img.shape)

#显示图像

cv.imshow('black',black_img)

#修改像素值为255，创建全白图像

black_img[:,:,:]=255#每个像素值都取并赋值



#生成随机像素的图像

black_img[:,:,:]=np.random.randint(0,256,(h,w,c))#这段代码的作用是将 black_img 中的所有像素值随机设置为 0 到 255 之间的整数。换句话说，它会用随机生成的像素值填充整个图像。

'''np.random.randint 是 NumPy 中的一个函数，用于生成随机整数。

参数 0 和 256 表示生成的随机整数范围是从 0 到 255（包括 0，不包括 256）。这是因为图像的像素值通常用 8 位无符号整数表示，范围是 0 到 255。

参数 (h, w, c) 是生成随机数组的形状，表示生成一个高度为 h、宽度为 w、通道数为 c 的三维数组'''

cv.imshow('random',black_img)

print(black_img.shape)

cv.waitKey(0)

4.6 图像切片（图片剪裁）

Opencv中，图像切片用于从图像中提取一个子区域（矩形区域）。

假设有一个图像img，它的类型是numpy.ndarray。img[y:y+h,x:x+w]的含义如下：

x：子区域左上角的x坐标

y：子区域左上角的y坐标

w：子区域的宽度

h：子区域的高度

切片操作

img[y:y+h,x:x+w]提取的是从(x,y)开始，高度为h，宽度为w的矩形区域

示例：

import cv2 as cv

#读取图像

img=cv.imread("../image/cat1.png")

#定义剪切图像起点和宽高

print(img.shape)

x=200

y=100

#宽高

w=500

h=500

img2=img[y:y+h,x:x+w]

cv.imshow('img',img)

cv.imshow('img',img2)

print(img2.shape)

cv.waitKey(0)

cv.destroyAllWindows()

注意：确保(y,x)和(y+h,x+w)都在图像的边界内，否则会出现索引越界错误。img通常是numpy.ndarray类型，切片操作返回的也是numpy.ndarray类型。

4.7 图像大小调整

cv2.resize是Opencv库中用于调整图像大小的函数，在图像处理中很常用，特别是在要对图像进行缩放以适应不同需求时。

cv2.resize(img,dsize,dts)

参数：

img：输入图像，通常是二维或三位NumPy数组。

dsize：输出图像的尺寸，是一个二元组(w,h)，

dst：缩放后的图像

示例：

import cv2  as cv

cat=cv.imread('../image/cat1.png')

print(cat.shape)

#调整图像大小：cv2.resize(图像.(w,h))

new_img=cv.resize(cat,(500,600))

print(new_img.shape)

cv.imwrite('../image/cat3.jpg', new_img)

cv.waitKey(0)

cv.destroyAllWindows()

（调整前的大小

调整后的大小）

五、图像绘制

5.1 绘制直线

cv2.line(img,sart,end,color,thickness)

参数：

img：要绘制直线的图像

start、end：直线的起点和终点

color：直线的颜色（对于彩色图像，使用 BGR 格式指定颜色）

thickness：线条宽度

5.2 绘制圆形

cv2.circle(img,centerpoint,r,color,thickness)

参数：

img：要绘制圆形的图片

centerpoint、r：圆心和半径

color：线条颜色

tnickness：线条宽度，为-1时生成闭合图案并填充颜色

5.3 绘制矩形

cv2.rectangle(img,leftupper,rightdown,color,thickness)

参数：

img：要绘制矩形的图像

leftupper、rightdown：矩形的左上角和右下角坐标

color：线条的颜色

thickness：线条的宽度

5.4 绘制文本（向图片中添加文字）

cv2.putText(img,text,station,font,Fontscale,color,thickness,cv2.LINE_AA)

参数：

img：要添加文字的图像

text：要写入的文本数据

station：文本的放置位置

font：字体样式

Fontscale：字体大小

thickness：字体线条宽度

cv2.LINE_AA:使用反走样技术绘制文本边框

反走样是一种提高图形质量的技术，通过混合颜色和像素边缘来减少锯齿状效果，使文本看起来更加平滑、清晰。

5.1~5.4代码实例：

import cv2 as cv

cat=cv.imread('../image/cat1.png')

#绘制直线：cv2.line(图像.起点.终点.颜色.线条粗细）

cv.line(cat,(200,100),(400,300),(255,0,0),2)

#绘制圆形：cv2.circle(图像.圆心坐标.半径.颜色.线条粗细)

cv.circle(cat,(300,300),50,(0,100,200),1,cv.LINE_AA)#负则是圆填充为实心圆,cv.LINE_AA反走样奇数，抗锯齿，使边缘更加平滑

#绘制矩形：cv.rectangle(图像.左上坐标.右下坐标.颜色.线条粗细）

cv.rectangle(cat,(400,300),(500,700),(0,0,25),2)

#添加文字:cv2.putText(图像，文本内容，写入位置，字体样式，字体大小，颜色，线条粗细）

cv.putText(cat,"hell0 python",(300,300),cv.FONT_ITALIC,3,(255,0,0),2,cv.LINE_AA)#只能写入英文

cv.imshow('cat',cat)

cv.waitKey(0)

cv.destroyAllWindows()

5.5 读取视频

cap = cv2.VideoCapture(path)

path:视频流资源路径设置为0,代表从默认摄像头捕获视频流

ret,frame = cap.read()

返回值cap调用read()方法得到一个布尔值和一帧图像，布尔值表示是否成功读取到帧，如果为False，可能是因为视频结束或读取失败，如果为True，frame则是当前帧的图像数据。

读取视频文件代码

import cv2 as cv

cap=cv.VideoCapture('../video/videocap.mp4')

while True:

    ret,frame=cap.read()

    if not ret:

        print("error")

        break

    cv.imshow("frame",frame)

    # 等待40毫秒并检查按键事件,获取按键的ASCII码,判断按键是否为q键

    if cv.waitKey(40) & 0xFF==ord('q'):

        break

cap.release()

cv.destroyAllWindows()

获取摄像头内容代码

import cv2 as cv

# 创建VideoCapture对象,参数为摄像头索引(通常为0,如果为单一摄像头)

cap=cv.VideoCapture(0)

while True:

    ret,frame=cap.read()

    if not ret:

        print("error")

        break

    cv.imshow("frame",frame)

    # 等待40毫秒并检查按键事件,获取按键的ASCII码,判断按键是否为q键

    if cv.waitKey(40) & 0xFF==ord('q'):

        break

cap.release()# 释放摄像头资源