目标检测算法及其运用

勤奋学习研究牲

已于 2023-04-21 10:28:52 修改

阅读量397

点赞数 1

文章标签： python 深度学习 pytorch

于 2023-03-31 08:44:46 首次发布

本文链接：https://blog.csdn.net/qq_52266706/article/details/129871259

版权

baseline UA-CMDet模型的python实现

以下是一个基于PyTorch的UA-CMDet模型的基线实现：

import torch
import torch.nn as nn
import torch.nn.functional as F

class UA_CMDet(nn.Module):
    def __init__(self, num_classes):
        super(UA_CMDet, self).__init__()
        self.num_classes = num_classes
        self.backbone = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(128),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU(inplace=True),
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            nn.Conv2d(512, 1024, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(1024),
            nn.ReLU(inplace=True),
            nn.Conv2d(1024, 1024, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(1024),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        self.fpn = nn.Sequential(
            nn.Conv2d(1024, 256, kernel_size=1, stride=1, padding=0),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=1, stride=1, padding=0),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=1, stride=1, padding=0),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=1, stride=1, padding=0),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True)
        )
        self.cls_head = nn.Sequential(
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, num_classes, kernel_size=3, stride=1, padding=1)
        )
        self.reg_head = nn.Sequential(
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 4, kernel_size=3, stride=1, padding=1)
        )

    def forward(self, x):
        x = self.backbone(x)
        x = self.fpn(x)
        cls_out = self.cls_head(x)
        reg_out = self.reg_head(x)
        return cls_out, reg_out

该模型包含一个基础的卷积神经网络作为骨干网络，然后使用自下而上的特征金字塔网络（FPN）来提取不同尺度的特征，最后使用两个分支对检测框进行分类和回归。

在训练过程中，可以使用交叉熵损失函数来计算分类损失，使用平滑L1损失函数来计算回归损失。具体实现可以参考以下代码：

def smooth_l1_loss(pred, target, beta=1.0):
    diff = torch.abs(pred - target)
    loss = torch.where(diff < beta, 0.5 * diff ** 2 / beta, diff - 0.5 * beta)
    return loss.sum()

def train(model, dataloader, optimizer, device):
    model.train()
    total_loss = 0.0
    total_cls_loss = 0.0
    total_reg_loss = 0.0
    for images, targets in dataloader:
        images = images.to(device)
        targets = [target.to(device) for target in targets]
        optimizer.zero_grad()
        cls_out, reg_out = model(images)
        cls_targets, reg_targets = targets
        cls_loss = F.cross_entropy(cls_out.permute(0, 2, 3, 1).reshape(-1, model.num_classes), cls_targets.reshape(-1))
        reg_loss = smooth_l1_loss(reg_out.permute(0, 2, 3, 1).reshape(-1, 4), reg_targets.reshape(-1, 4))
        loss = cls_loss + reg_loss
        loss.backward()
        optimizer.step()
        total_loss += loss.item() * images.size(0)
        total_cls_loss += cls_loss.item() * images.size(0)
        total_reg_loss += reg_loss.item() * images.size(0)
    return total_loss / len(dataloader.dataset), total_cls_loss / len(dataloader.dataset), total_reg_loss / len(dataloader.dataset)

在测试过程中，可以根据分类分数和回归偏移量来筛选出置信度高的检测框，并使用非极大值抑制（NMS）来消除重叠的检测框。具体实现可以参考以下代码：

def nms(dets, thresh):
    x1 = dets[:, 0]
    y1 = dets[:, 1]
    x2 = dets[:, 2]
    y2 = dets[:, 3]
    scores = dets[:, 4]
    areas = (x2 - x1 + 1) * (y2 - y1 + 1)
    order = scores.argsort()[::-1]
    keep = []
    while order.size > 0:
        i = order[0]
        keep.append(i)
        xx1 = np.maximum(x1[i], x1[order[1:]])
        yy1 = np.maximum(y1[i], y1[order[1:]])
        xx2 = np.minimum(x2[i], x2[order[1:]])
        yy2 = np.minimum(y2[i], y2[order[1:]])
        w = np.maximum(0.0, xx2 - xx1 + 1)
        h = np.maximum(0.0, yy2 - yy1 + 1)
        inter = w * h
        iou = inter / (areas[i] + areas[order[1:]] - inter)
        inds = np.where(iou <= thresh)[0]
        order = order[inds + 1]
    return keep

def detect(model, image, threshold=0.5, nms_thresh=0.3):
    model.eval()
    with torch.no_grad():
        image = image.unsqueeze(0)
        cls_out, reg_out = model(image)
        cls_scores = F.softmax(cls_out, dim=1)
        cls_scores = cls_scores.squeeze(0)
        reg_out = reg_out.squeeze(0)
        detections = []
        for i in range(model.num_classes):
            mask = cls_scores[i] > threshold
            if mask.sum() == 0:
                continue
            scores = cls_scores[i][mask]
            boxes = reg_out[mask]
            boxes = torch.stack([boxes[:, 0] - boxes[:, 2] / 2,
                                 boxes[:, 1] - boxes[:, 3] / 2,
                                 boxes[:, 0] + boxes[:, 2] / 2,
                                 boxes[:, 1] + boxes[:, 3] / 2], dim=1)
            boxes = boxes.cpu().numpy()
            scores = scores.cpu().numpy()
            dets = np.hstack((boxes, scores[:, np.newaxis]))
            keep = nms(dets, nms_thresh)
            dets = dets[keep, :]
            detections.append(dets)
        if len(detections) == 0:
            return None
        detections = np.vstack(detections)
        return detections

以上是一个简单的UA-CMDet模型的基线实现，可以根据具体的任务和数据集进行调整和优化。

使用上述模型的步骤

使用上述模型可以按照以下步骤进行：

准备数据集：将需要检测的图像和标注文件准备好，标注文件中需要包含每个目标的类别和位置信息。
安装依赖库：安装好 PyTorch 和其他必要的依赖库。
下载模型权重：从官方网站下载模型权重。
加载模型权重：使用 PyTorch 加载模型权重。
运行模型：使用加载好的模型对图像进行检测，并输出检测结果。

具体实现方法可以参考 PyTorch 官方文档和示例代码。

具体的python使用

以下是使用baseline UA-CMDet模型进行目标检测的Python实现步骤：

安装必要的库

!pip install torch torchvision opencv-python

加载模型

import torch
import torchvision

# 加载模型
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
model.eval()

加载图像并进行预处理

import cv2
import numpy as np
from torchvision.transforms import ToTensor

# 加载图像
image = cv2.imread('test.jpg')

# 转换为RGB格式
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# 转换为Tensor
image_tensor = ToTensor()(image)

# 添加batch维度
image_tensor = image_tensor.unsqueeze(0)

运行模型进行目标检测

# 运行模型
with torch.no_grad():
    output = model(image_tensor)

# 获取预测结果
boxes = output[0]['boxes'].numpy()
scores = output[0]['scores'].numpy()
labels = output[0]['labels'].numpy()

可视化检测结果

# 可视化检测结果
for box, score, label in zip(boxes, scores, labels):
    if score > 0.5:
        x1, y1, x2, y2 = box
        cv2.rectangle(image, (x1, y1), (x2, y2), (0, 255, 0), 2)
        cv2.putText(image, str(score), (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

# 显示图像
cv2.imshow('image', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

完整的代码如下：

import cv2
import numpy as np
import torch
import torchvision
from torchvision.transforms import ToTensor

# 加载模型
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained=True)
model.eval()

# 加载图像
image = cv2.imread('test.jpg')

# 转换为RGB格式
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

# 转换为Tensor
image_tensor = ToTensor()(image)

# 添加batch维度
image_tensor = image_tensor.unsqueeze(0)

# 运行模型
with torch.no_grad():
    output = model(image_tensor)

# 获取预测结果
boxes = output[0]['boxes'].numpy()
scores = output[0]['scores'].numpy()
labels = output[0]['labels'].numpy()

# 可视化检测结果
for box, score, label in zip(boxes, scores, labels):
    if score > 0.5:
        x1, y1, x2, y2 = box
        cv2.rectangle(image, (x1, y1), (x2, y2), (0, 255, 0), 2)
        cv2.putText(image, str(score), (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)

# 显示图像
cv2.imshow('image', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

勤奋学习研究牲

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
目标检测算法及其运用

该模型包含一个基础的卷积神经网络作为骨干网络，然后使用自下而上的特征金字塔网络（FPN）来提取不同尺度的特征，最后使用两个分支对检测框进行分类和回归。在测试过程中，可以根据分类分数和回归偏移量来筛选出置信度高的检测框，并使用非极大值抑制（NMS）来消除重叠的检测框。以上是一个简单的UA-CMDet模型的基线实现，可以根据具体的任务和数据集进行调整和优化。准备数据集：将需要检测的图像和标注文件准备好，标注文件中需要包含每个目标的类别和位置信息。运行模型：使用加载好的模型对图像进行检测，并输出检测结果。
复制链接

扫一扫