30min 的OpenCV learning Note

一谷sir

已于 2024-09-30 10:36:23 修改

阅读量1.3k

点赞数 23

CC 4.0 BY-SA版权

分类专栏： OPENCV 文章标签： opencv 人工智能计算机视觉

于 2024-09-29 20:59:49 首次发布

本文链接：https://blog.csdn.net/sztu158167/article/details/142638604

OPENCV 专栏收录该内容

2 篇文章

订阅专栏

1.安装python和pycharm与环境搭配

打开Windows终端：（win+R）（一般使用清华镜像网站安装库比较快）

pip install opencv-contrib-python -i https://pypi.mirrors.ustc.edu.cn/simple

或者

python -m pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple

2.基础操作学习

库函数：import cv2；import numpy

代码解释：

ONE（打开，图像大小与窗口）：

1. print(cv2.getVersionString())

作用：打印当前安装的OpenCV库的版本号。这对于调试和确保你的代码与特定版本的OpenCV兼容非常有用。
函数格式：cv2.getVersionString() 是一个无参数的函数，它返回一个字符串，表示安装的OpenCV库的版本号。

2. image = cv2.imread("opencv_logo.jpg")

作用：从指定路径加载图像文件。如果文件成功读取，图像数据将被存储在变量image中；如果文件不存在或无法读取，image将被设置为None。
函数格式：cv2.imread(filepath, flags=cv2.IMREAD_COLOR)
- filepath：图像文件的路径。
- flags（可选）：指定如何读取图像。常用的值有：
  - cv2.IMREAD_COLOR：加载彩色图像。任何图像的透明度都会被忽略（这是默认值）。
  - cv2.IMREAD_GRAYSCALE：以灰度模式加载图像。
  - cv2.IMREAD_UNCHANGED：包括alpha通道的加载图像。

3. print(image.shape)

作用：打印图像的形状。对于彩色图像，这将是一个包含三个元素的元组，分别表示图像的高度、宽度和颜色通道数（对于BGR图像，通道数为3）。如果图像是灰度图，则只包含两个元素：高度和宽度。
说明：这一步有助于了解图像的尺寸和是否成功加载（如果image是None，尝试访问.shape会引发错误）。

4. cv2.imshow("image", image)

作用：在一个窗口中显示图像。窗口的标题由第一个参数指定，图像数据由第二个参数提供。
函数格式：cv2.imshow(winname, mat)
- winname：窗口的名称，是一个字符串。
- mat：要显示的图像。它应该是uint8或float32类型的numpy数组。

5. cv2.waitKey()

作用：等待用户按键。这个调用是必需的，以便cv2.imshow()创建的窗口能够保持打开状态，直到用户按下任意键。
函数格式：cv2.waitKey([delay])
- delay（可选）：等待键盘事件的时间（以毫秒为单位）。如果参数是0，则无限期等待键盘事件。

注意：在程序结束时，通常还需要调用cv2.destroyAllWindows()来关闭所有OpenCV创建的窗口。这虽然不是这段代码的一部分，但在实际应用中是一个好习惯。

TWO（图像RGB颜色通道与灰色转换）：

首先使用cv2.imshow函数分别显示了图像image的蓝色、绿色和红色通道，然后使用cv2.cvtColor函数将图像从BGR颜色空间转换为灰度图像，并显示了转换后的灰度图像。

显示蓝色通道：

cv2.imshow("blue", image[:, :, 0])
这行代码显示了图像image的蓝色通道。在BGR颜色空间中，蓝色通道是图像的第三个维度（索引为2，但由于Python索引从0开始，所以是索引0）。但是，这里直接访问image[:, :, 0]实际上是访问了第一个通道，即蓝色通道（这里OPENCV图像是以RGB格式加载的，这通常是正确的，因为OpenCV默认以BGR格式加载图像）。
显示绿色通道：

cv2.imshow("green", image[:, :, 1])
显示红色通道：

cv2.imshow("red", image[:, :, 2])
转换为灰度图像并显示：

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
cv2.imshow("gray", gray)
这两行代码首先将图像image从BGR颜色空间转换为灰度图像，并将结果存储在变量gray中。cv2.cvtColor函数是OpenCV中用于颜色空间转换的函数，cv2.COLOR_BGR2GRAY是将其从BGR颜色空间转换为灰度颜色空间的转换代码。

THREE（图像截取）：

使用Python的切片操作来从原始图像image中裁剪出一个区域，并将这个裁剪后的区域存储在变量crop中。然后使用cv2.imshow函数来显示这个裁剪后的图像。

	`# 从原始图像中裁剪出一个区域`
	`# image[y_start:y_end, x_start:x_end]`
	`# 其中，y_start和x_start是裁剪区域左上角的坐标（包含），y_end和x_end是裁剪区域右下角的坐标（不包含）`
	`crop = image[10:170, 40:200]`

	`# 使用OpenCV的imshow函数显示裁剪后的图像`
	`cv2.imshow("crop", crop)`

FOUR（创建图形【方形圆形字体】）：

使用了OpenCV库（通过import cv2）和NumPy库（通过import numpy as np）来创建一个黑色的图像，并在该图像上绘制了一条线、一个矩形、一个圆和一段文本。

创建黑色图像：

image = np.zeros([300, 300, 3], dtype=np.uint8)
使用NumPy的zeros函数创建一个300x300像素的黑色图像（因为所有像素的RGB值都被初始化为0）。这是一个三维数组，其中前两个维度代表图像的高度和宽度，第三个维度代表颜色通道（RGB）。dtype=np.uint8指定了数组的数据类型为无符号8位整数，这是图像数据常用的数据类型。
绘制线条：

cv2.line(image, (100, 200), (250, 250), (255, 0, 0), 2)
使用cv2.line函数在图像上绘制一条从点(100, 200)到点(250, 250)的红色（BGR格式中的(255, 0, 0)）线条，线条的厚度为2。
绘制矩形：

cv2.rectangle(image, (30, 100), (60, 150), (0, 255, 0), 2)
使用cv2.rectangle函数在图像上绘制一个左上角为(30, 100)，右下角为(60, 150)的绿色（BGR格式中的(0, 255, 0)）矩形，矩形的边框厚度为2。
绘制圆：

cv2.circle(image, (150, 100), 20, (0, 0, 255), 3)
使用cv2.circle函数在图像上绘制一个圆心为(150, 100)，半径为20的蓝色（BGR格式中的(0, 0, 255)）圆，圆的边框厚度为3。
添加文本：

cv2.putText(image, "hello", (100, 50), 0, 1, (255, 255, 255), 2, 1)
使用cv2.putText函数在图像上添加文本“hello”。文本的左下角位于点(100, 50)，字体类型为0（OpenCV内置字体之一），字体缩放比例为1，颜色为白色（BGR格式中的(255, 255, 255)），线条厚度为2。最后一个参数1指定了线条类型（用于指定字体是否加粗等，但在这个上下文中，它主要影响文本的渲染方式。lineType线条的类型，如 cv2.LINE_8、cv2.LINE_AA 等。对于文本来说，这个参数通常不重要，因为文本绘制有其自己的抗锯齿处理）。

FIVE（图像滤波）：

分别应用高斯模糊（Gaussian Blur）和中值模糊（Median Blur）两种滤波技术，并显示原始图像和两种模糊处理后的图像。

有一点需要注意：在调用cv2.waitKey()时，最好指定一个参数（通常是0），这样程序就会等待用户按键后再继续执行。虽然不指定参数在某些环境中可能也能正常工作，但明确指定参数是一个好习惯，可以避免潜在的混淆。

	`# 检查图像是否成功读取`
	`if image is None:`
	`print("Error: Image could not be read.")`
	`else:`
	`# 应用高斯模糊，` `(5, 5)`: 这是一个元组，指定了高斯核的大小。核的大小是模糊的主要参数之一，较大的核会导致更强烈的模糊效果。 `0`: 这个参数是高斯核在X和Y方向上的标准差。如果您将此参数设置为0，则函数会根据核的大小自动计算一个合适的标准差。标准差越大，模糊效果越明显。
	`gauss = cv2.GaussianBlur(image, (5, 5), 0)`
	`# 应用中值模糊` 5：这是一个整数，指定了中值滤波器的邻域大小。它必须是正奇数。在这个例子中，滤波器的大小是5x5。中值滤波器用邻域内像素的中位数来替换中心像素的值，这对于去除椒盐噪声（salt-and-pepper noise）特别有效。
	`median = cv2.medianBlur(image, 5)`

SIX（检测角点）：

使用了OpenCV库来检测图像中的角点，并在原始图像上标记这些角点。

转换为灰度图像：

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
使用cv2.cvtColor()函数将原始图像从BGR颜色空间转换为灰度图像。这是因为角点检测通常在灰度图像上进行，以减少计算量并简化问题。
检测角点：

corners = cv2.goodFeaturesToTrack(gray, 500, 0.1, 10)
使用cv2.goodFeaturesToTrack()函数在灰度图像上检测角点。这个函数的参数包括：

corners是一个包含角点坐标的数组，每个角点是一个(x, y)坐标的浮点数对。
- gray: 输入的灰度图像。
- 500: 最多要返回的角点数量。注意，实际返回的角点数量可能少于这个值，具体取决于图像和其他参数。
- 0.1: 角点检测的质量级别，一个介于0到1之间的值，值越低，检测到的角点越多。
- 10: 最小角点之间的欧氏距离，以像素为单位。这有助于避免检测到的角点过于集中。
在图像上标记角点：

for corner in corners:
x, y = corner.ravel()
cv2.circle(image, (int(x), int(y)), 3, (255, 0, 255), -1)
遍历检测到的角点，并使用cv2.circle()函数在原始图像上以每个角点为中心绘制一个圆。这里，corner.ravel()用于将角点坐标（通常是一个二维数组）转换为一维数组，从而可以分别访问x和y坐标。圆的半径设置为3，颜色设置为粉红色（(255, 0, 255)），-1表示圆将被填充。

SEVEN（匹配查找）：

用于在一张图片中查找与给定模板相匹配的区域，并在原始图像上绘制这些区域的边界框。

模板匹配结果的索引：在np.where(match >= 0.9)中，返回的locations是一个元组，其中包含了满足条件的坐标的索引。由于match是一个二维数组，locations将有两个元素，分别对应y和x坐标的索引。但是，由于OpenCV的坐标系统通常使用(x, y)格式，您可能需要调整这些索引以正确映射到图像坐标。

	`# 转换为灰度图像`
	`gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)`
	`# 定义模板`
	`template = gray[75:105, 235:265]`
	`if template.size == 0:`
	`print("Error: Template has zero size.")`
	`exit()`
	`# 执行模板匹配`
	`match = cv2.matchTemplate(gray, template, cv2.TM_CCOEFF_NORMED)`
	`# 找到匹配位置`
	`threshold = 0.9`
	`locations = np.where(match >= threshold)`

w, h = template.shape[0:2]:
- 这行代码从模板图像的shape属性中获取模板的宽度(w)和高度(h)。template.shape返回一个元组，通常包含三个元素（对于二维图像，第三个元素是颜色通道数，但在这里因为是灰度图，所以只有一个颜色通道，且我们不需要它）。通过[0:2]切片，我们选取了前两个元素，即图像的高度和宽度，并将它们分别赋值给h和w。
for p in zip(*locations[::-1])::
- locations = np.where(match >= threshold)这行代码生成了一个包含两个数组的元组，这两个数组分别表示满足匹配阈值条件的y（行索引）和x（列索引）坐标的索引。
- locations[::-1]将这两个数组的顺序反转，因为np.where默认返回的是(y_indices, x_indices)，而OpenCV中的坐标系统是(x, y)。通过反转，我们得到(x_indices, y_indices)。
- zip(*locations[::-1])将这两个索引数组“解包”并重新组合成元组的元组，每个内部元组包含一对(x, y)坐标。zip函数在这里实际上是在做“转置”的工作。
- for p in ...遍历这些(x, y)坐标对。
x1, y1 = p[0], p[1]:
- 对于每个坐标对p，我们将其分解为x1和y1，即矩形边界框的左上角坐标。
x2, y2 = x1 + w, y1 + h:
- 计算矩形边界框的右下角坐标。通过将左上角坐标x1和y1分别加上模板的宽度w和高度h，我们得到边界框的右下角坐标x2和y2。
cv2.rectangle(image, (x1, y1), (x2, y2), (0, 255, 0), 2):
- 使用cv2.rectangle函数在原始图像image上绘制一个矩形。参数(x1, y1)和(x2, y2)定义了矩形的左上角和右下角坐标。
- 参数(0, 255, 0)定义了矩形的颜色，这里是绿色（BGR格式）。
- 最后一个参数2定义了矩形边界的线条粗细。

EIGHT（读取灰度图）：

从同一张图像中读取灰度图，然后分别应用拉普拉斯边缘检测和Canny边缘检测。但是，有一点需要注意，当您使用 cv2.Laplacian() 函数时，如果图像是8位无符号整数（即 np.uint8 类型），并且您指定了 cv2.CV_64F 作为输出图像的深度，那么返回的 laplacian 图像将是一个浮点数数组，其值可能超出标准8位图像的显示范围（即0到255）。

为了正确显示 laplacian 图像，您可能需要将其数据类型转换回 np.uint8 并进行归一化或截断到适当的范围。然而，对于可视化目的，简单的归一化到0-255范围并转换为 np.uint8 通常就足够了。

	`# 读取图像为灰度图`
	`gray = cv2.imread("opencv_logo.jpg", cv2.IMREAD_GRAYSCALE)`
	`# 应用拉普拉斯边缘检测`
	`laplacian = cv2.Laplacian(gray, cv2.CV_64F)`
	`# 将拉普拉斯图像归一化到0-255范围并转换为uint8`
	`laplacian = np.uint8(np.absolute(laplacian / np.max(laplacian)) * 255)`
	`# 应用Canny边缘检测`
	`canny = cv2.Canny(gray, 100, 200)`

注意关键点：

我使用了 np.absolute() 来确保所有值都是非负的，因为拉普拉斯算子可能会产生负值。
我使用了 np.max(laplacian) 来找到拉普拉斯图像中的最大值，并将其用作归一化的除数。这样，拉普拉斯图像中的所有值都将被缩放到0到255的范围内。

NiNE（阈值处理）：

使用了全局阈值处理（固定阈值和Otsu阈值）、以及自适应阈值处理。

读取灰度图像：

gray = cv2.imread("bookpage.jpg", cv2.IMREAD_GRAYSCALE)
这行代码读取名为"bookpage.jpg"的图像文件，并将其转换为灰度图像。
全局固定阈值处理：

ret, binary = cv2.threshold(gray, 10, 255, cv2.THRESH_BINARY)
这里，您使用了一个固定的阈值（10）来将灰度图像转换为二值图像。所有灰度值大于10的像素点被设置为255（白色），其余被设置为0（黑色）。ret是实际使用的阈值（在这种情况下，它应该是您指定的10，但可能会因为图像数据类型或内部处理而略有不同）。
自适应阈值处理：

binary_adaptive = cv2.adaptiveThreshold(
gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 115, 1)
自适应阈值处理会根据图像中每个像素周围的局部区域来计算阈值。这里，您使用了高斯加权和（cv2.ADAPTIVE_THRESH_GAUSSIAN_C），这意味着在计算阈值时，每个像素的邻域将被高斯加权。115是常数，从每个像素的加权平均值中减去以得到最终的阈值。1表示邻域的大小（在这个例子中，它实际上指定了11x11的邻域大小，因为OpenCV中邻域大小是奇数且由参数值加1得到）。
Otsu阈值处理：

ret1, binary_otsu = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
Otsu阈值处理是一种自动选择最佳阈值的方法，用于将图像分割为前景和背景。这里，您通过添加cv2.THRESH_OTSU标志来告诉cv2.threshold函数自动计算最佳阈值。0作为阈值参数在这里被忽略，因为Otsu方法会覆盖它。ret1将包含计算出的最佳阈值。

TEN（腐蚀与膨胀）：

	`import cv2 # 导入OpenCV库，这是一个用于图像处理和计算机视觉的强大库。`
	`import numpy as np # 导入NumPy库，这是一个用于科学计算的基础库，提供了高性能的多维数组对象和相关工具。`
	`# 使用OpenCV的imread函数读取名为"opencv_logo.jpg"的图像文件，并指定以灰度模式读取（cv2.IMREAD_GRAYSCALE）。`
	`# 这将返回一个灰度图像，其中每个像素的亮度值范围是0到255。`
	`gray = cv2.imread("opencv_logo.jpg", cv2.IMREAD_GRAYSCALE)`
	`# 使用OpenCV的threshold函数对灰度图像进行二值化处理。`
	`# 参数gray是源图像，200是阈值，255是当像素值超过阈值时应该赋予的新值（对于THRESH_BINARY_INV类型）。`
	`# cv2.THRESH_BINARY_INV是阈值类型，表示进行反二值化操作，即大于阈值的像素被设置为0（黑色），小于或等于阈值的像素被设置为255（白色）。`
	`# 函数返回两个值，第一个值（通常不关心）是实际使用的阈值（可能由于自动阈值选择算法而略有不同），第二个值是二值化后的图像。`
	`_, binary = cv2.threshold(gray, 200, 255, cv2.THRESH_BINARY_INV)`
	`# 使用NumPy的ones函数创建一个5x5的二维数组，数组中的每个元素都是1，数据类型为无符号8位整数（np.uint8）。`
	`# 这个数组将用作形态学操作（如腐蚀和膨胀）中的结构元素或核。`
	`kernel = np.ones((5, 5), np.uint8)`
	`# 使用OpenCV的erode函数对二值图像进行腐蚀操作。`
	`# 参数binary是输入图像，kernel是前面创建的结构元素。`
	`# 腐蚀操作会使图像中的前景对象（白色区域）变小，通常用于去除小的噪点或分离连接的对象。`
	`erosion = cv2.erode(binary, kernel)`
	`# 使用OpenCV的dilate函数对二值图像进行膨胀操作。`
	`# 参数和腐蚀操作相同，但膨胀操作会使图像中的前景对象（白色区域）变大，通常用于填补前景对象中的小洞或连接相邻的对象。`
	`dilation = cv2.dilate(binary, kernel)`

ELEVEN（图像捕获）：

用于从计算机的默认摄像头捕获视频流，并在一个窗口中实时显示这些视频帧。

	`# 初始化视频捕获对象，参数0通常代表计算机的默认摄像头`
	`capture = cv2.VideoCapture(0)`
	`# 使用一个无限循环来持续捕获视频帧`
	`while True:`
	`# capture.read()方法捕获视频帧`
	`# 它返回两个值：`
	`# ret是一个布尔值，如果读取帧成功则为True，如果文件结束或发生错误则为False`
	`# frame是捕获的帧图像`
	`ret, frame = capture.read()`
	`# 如果正确读取了帧，ret为True`
	`if ret:`
	`# 显示捕获的帧`
	`cv2.imshow("camera", frame)`
	`# cv2.waitKey(1)等待1毫秒，检查是否有键盘事件`
	`# 如果用户按下了键，则返回按键的ASCII码；如果没有按键，则返回-1`
	`key = cv2.waitKey(1)`
	`# 如果用户按下了任意键（key不等于-1），则退出循环`
	`if key != -1:`
	`break`
	`# 释放视频捕获对象`
	`capture.release()`