一个关于openCV的问答（本人经历）

最新推荐文章于 2024-08-05 23:59:54 发布

kali_mulin

最新推荐文章于 2024-08-05 23:59:54 发布

阅读量925

点赞数 16

文章标签： opencv 计算机视觉人工智能

本文链接：https://blog.csdn.net/kali_mulin/article/details/135371109

版权

这代码有什么问题吗？

import cv2
import torch
import torchvision.transforms as transforms
from PIL import Image
# 加载预训练的YOLOv5模型
model = torch.hub.load('ultralytics/yolov5', 'custom', path_or_model=None)
# 初始化摄像头
cap = cv2.VideoCapture(0)
while cap.isOpened():
_, frame = cap.read()
# 将帧转换为RGB格式
frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
# 调整图像大小以满足模型要求
transform =cv2.pose([
transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
img_tensor = transform(Image.fromarray(frame))
img_tensor = img_tensor.unsqueeze(0) # 添加批次维度
# 使用模型进行预测
with torch.no_grad():
outputs = model(img_tensor)
outputs = outputs.xyxyn[0]
# 过滤掉非狗的检测结果
dog_detections = [output for output in outputs if output[-1] == 15]
# 在图像上绘制检测结果
for x1, y1, x2, y2, _, class_id, conf in dog_detections:
if class_id == 15: # 狗
cv2.rectangle(frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
cv2.putText(frame, "Dog", (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
# 显示结果
cv2.imshow("Dog Detection", frame)
# 按'q'键退出循环
if cv2.waitKey(1) & 0xFF == ord('q'):
break
# 释放摄像头资源并关闭窗口
cap.release()
cv2.destroyAllWindows()

好心人：

原：
transform =cv2.pose([
现：
transform = transforms.Compose([
应该将"pose"更正为"Compose"，因为我们要使用的是torchvision.transforms中的Compose函数。这样才能正确定义图像的转换操作.

好心人2回答：

cv2.pose 应为 cv2.imread，这是一个拼写错误。
cv2.imshow 应在两个位置调用 cv2.waitKey 之后。
为性能和优化考虑，请在循环外部或开头定义转换对象，而不是在每次循环迭代时都定义它。这样可以避免重复创建转换对象。
在 cap.isOpened() 条件之前，应该检查摄像头对象是否成功打开，即 cap.isOpened() == True。

下面是修正后的代码:

import cv2
import torch
import torchvision.transforms as transforms
from PIL import Image
 
# 加载预训练的YOLOv5模型
model = torch.hub.load('ultralytics/yolov5', 'custom', path_or_model=None)
 
# 初始化摄像头
cap = cv2.VideoCapture(0)
 
# 调整图像大小以满足模型要求
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])
 
while cap.isOpened():
    # 读取摄像头的帧
    ret, frame = cap.read()
 
    # 检查摄像头是否成功打开
    if not ret:
        print("摄像头打开失败")
        break
 
    # 将帧转换为RGB格式
    frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
 
    img_tensor = transform(Image.fromarray(frame))
    img_tensor = img_tensor.unsqueeze(0)  # 添加批次维度
 
    # 使用模型进行预测
    with torch.no_grad():
        outputs = model(img_tensor)
        outputs = outputs.xyxyn[0]
 
    # 过滤掉非狗的检测结果
    dog_detections = [output for output in outputs if output[-1] == 15]
 
    # 在图像上绘制检测结果
    for x1, y1, x2, y2, _, class_id, conf in dog_detections:
        if class_id == 15:  # 狗
            cv2.rectangle(frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
            cv2.putText(frame, "Dog", (x1, y1), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2)
 
    # 显示结果
    cv2.imshow("Dog Detection", frame)
 
    # 按'q'键退出循环
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
 
# 释放摄像头资源并关闭窗口
cap.release()
cv2.destroyAllWindows()