图像底层处理

最新推荐文章于 2024-10-12 19:14:14 发布

技术支持在线

最新推荐文章于 2024-10-12 19:14:14 发布

阅读量119

点赞数

文章标签： opencv 计算机视觉 python

本文链接：https://blog.csdn.net/openyyds/article/details/129925976

版权

本文展示了Python中使用OpenCV、Dlib、numpy、scikit-image和PyTorch进行图像处理的基本操作，包括灰度化、二值化、边缘检测、人脸识别和图像分类。通过实例代码，解释了如何进行图像预处理、变换以及利用深度学习模型进行高级图像分析任务。

摘要由CSDN通过智能技术生成

基于Python OpenCV库实现的简单图像底层处理

import cv2

# 定义图像文件路径
input_path = 'input.jpg'
output_path = 'output.jpg'

# 读取图像数据
img = cv2.imread(input_path)

# 转换为灰度图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 将灰度图像转换为二值化图像
ret, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY)

# 边缘检测算法
edges = cv2.Canny(binary, 50, 150)

# 保存结果
cv2.imwrite(output_path, edges)

除了基本的图像处理，还可以结合其他各种算法和技术来进行更复杂的图像处理

import cv2
import dlib

# 定义图像文件路径
input_path = 'input.jpg'
output_path = 'output.jpg'

# 读取图像数据
img = cv2.imread(input_path)

# 创建人脸检测器和关键点检测器
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat')

# 将图像转换为灰度图像
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 检测人脸并标出检测结果
faces = detector(gray)
for face in faces:
    landmarks = predictor(gray, face)
    for n in range(0, 68):
        x = landmarks.part(n).x
        y = landmarks.part(n).y
        cv2.circle(img, (x, y), 2, (0, 255, 0), -1)

# 保存结果
cv2.imwrite(output_path, img)

除了OpenCV和Dlib等常用的图像处理库外，还可以使用其他类似PIL、numpy、scikit-image等库进行图像处理

import numpy as np
from skimage import io, transform

# 定义图像文件路径
input_path = 'input.jpg'
output_path = 'output.jpg'

# 读取图像数据
img = io.imread(input_path)

# 图像旋转角度
angle = 45

# 图像裁剪参数
crop_x1, crop_y1, crop_x2, crop_y2 = 100, 100, 400, 400

# 图像旋转
rotated = transform.rotate(img, angle)

# 图像裁剪
cropped = rotated[crop_y1:crop_y2, crop_x1:crop_x2]

# 保存结果
io.imsave(output_path, cropped)

除了基本的图像处理功能，利用深度学习技术，可以进一步实现各种高级图像处理任务，例如图像分类、目标检测、图像分割、超分辨率重建等

import torch
import torchvision.models as models
import torchvision.transforms as transforms
from PIL import Image

# 定义图像文件路径
input_path = 'input.jpg'
output_path = 'output.txt'

# 加载ResNet18模型
model = models.resnet18(pretrained=True)
model.eval()

# 定义变换操作
transform = transforms.Compose([transforms.Resize(256),
                                transforms.CenterCrop(224),
                                transforms.ToTensor(),
                                transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                                     std=[0.229, 0.224, 0.225])])

# 读取图像数据
img = Image.open(input_path)

# 对图像进行变换
img_tensor = transform(img)

# 将图像转换为批量输入的格式
batch_tensor = torch.unsqueeze(img_tensor, 0)

# 使用模型进行预测
with torch.no_grad():
    output = model(batch_tensor)

# 获取预测结果
preds = torch.softmax(output, dim=1)[0]
labels = open('imagenet_classes.txt').read().splitlines()

# 打印预测结果
with open(output_path, 'w') as f:
    for i in range(len(labels)):
        f.write('{}: {:.2f}%\n'.format(labels[i], preds[i]*100))

在这段代码中，我们首先使用PyTorch提供的models.resnet18()函数加载了预训练的ResNet18模型，该模型在ImageNet数据集上预训练并具有很好的分类性能。然后，我们定义了一个变换操作，用于对输入图像进行resize、center crop、ToTensor和标准化等操作。

接着，我们使用Pillow库中的Image.open()函数读取了一张图片，并使用前面定义的变换操作将其转换为PyTorch可接受的格式。需要注意的是，不同的深度学习框架可能需要不同的输入格式，具体细节需要参考相应的文档。

然后，我们将图像进行批量化处理，并使用model()函数进行预测，得到输出向量output。在本例中，由于我们只有一张输入图像，因此我们需要在第0个维度上添加一个批量维度，将输入图像转换为大小为(1, 3, 224, 224)的Tensor格式。

最后，我们使用torch.softmax()函数将输出向量转换为预测概率分布，并将其与预定义的类别标签进行对应。在这里，我们使用了一个名为imagenet_classes.txt的文件，其中每行存储了一个ImageNet类别标签。最终，我们将预测结果保存到指定的文件路径，每一行表示一个类别及其对应的预测概率。

需要注意的是，在实际应用中，深度学习模型的选择和参数调整可能会对结果产生很大的影响，需要根据任务需求进行相应的选择和调整