修改YOLOv5 detect.py代码使其能逐个视频检测保存,同时对每个视频内参数进行单独操作

真没怎么看懂YOLOv5的detect.py代码的逻辑,看了YOLOv3,和YOLOv4的detect逻辑,基本都是用opencv对每个视频进行操作,感觉还清晰易懂一点,YOLOv5的作者都好像没用opencv进行操作,或者把opencv的视频操作封装成另一个py文件隐藏起来,实在有些隐晦,所以用了最笨的方法,用os.listdir读视频文件目录下的所有视频,逐一检测。同时改写了画框的函数(因为要保存一帧关键帧的内容),检测命令里是用python detect.py --exist-ok --nosave,因为检测命令里带nosave这一选项,所以浅扒了一下作者的画框逻辑,发现还是用的opencv的rectangle方法(作者藏的

import numpy as np
import argparse
import os
import sys
from pathlib import Path
import time
import shutil
from PIL import Image
import cv2
import torch
import torch.backends.cudnn as cudnn

FILE = Path(__file__).resolve()
ROOT = FILE.parents[0]  # YOLOv5 root directory
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))  # add ROOT to PATH
ROOT = Path(os.path.relpath(ROOT, Path.cwd()))  # relative

from models.common import DetectMultiBackend
from utils.datasets import IMG_FORMATS, VID_FORMATS, LoadImages, LoadStreams
from utils.general import (LOGGER, check_file, check_img_size, check_imshow, check_requirements, colorstr,
                           increment_path, non_max_suppression, print_args, scale_coords, strip_optimizer, xyxy2xywh)
from utils.plots import Annotator, colors, save_one_box
from utils.torch_utils import select_device, time_sync


@torch.no_grad()
def run(weights=ROOT / 'yolov5s.pt',  # model.pt path(s)
        vidpath='/home/ccf_disk/animal/test/',  # file/dir/URL/glob, 0 for webcam
        data=ROOT / 'data/coco128.yaml',  # dataset.yaml path
        imgsz=(640, 640),  # inference size (height, width)
        conf_thres=0.6,  # confidence threshold
        iou_thres=0.45,  # NMS IOU threshold
        max_det=1000,  # maximum detections per image
        device='',  # cuda device, i.e. 0 or 0,1,2,3 or cpu
        view_img=False,  # show results
        save_txt=False,  # save results to *.txt
        save_conf=False,  # save confidences in --save-txt labels
        save_crop=False,  # save cropped prediction boxes
        nosave=True,  # do not save images/videos
        classes=None,  # filter by class: --class 0, or --class 0 2 3
        agnostic_nms=False,  # class-agnostic NMS
        augment=False,  # augmented inference
        visualize=False,  # visualize features
        update=False,  # update all models
        project='/home/ccf_disk/animal/video_animal',  # save results to project/name
        name='test_1',  # save results to project/name
        exist_ok=True,  # existing project/name ok, do not increment
        line_thickness=3,  # bounding box thickness (pixels)
        hide_labels=False,  # hide labels
        hide_conf=False,  # hide confidences
        half=False,  # use FP16 half-precision inference
        dnn=False,  # use OpenCV DNN for ONNX inference
        ):
    vidpath = str(vidpath)
    videos = os.listdir(vidpath)
    number = 0
    for video_name in videos:
        time1_start = time.time()
        so = vidpath + video_name
        number = number + 1
        print("第%d个视频处理中" %number)
        source = str(so)
        save_c = 0
        keep = 0
        save_img = not nosave and not source.endswith('.txt')  # save inference images
        is_file = Path(source).suffix[1:] in (IMG_FORMATS + VID_FORMATS)
        is_url = source.lower().startswith(('rtsp://', 'rtmp://', 'http://', 'https://'))
        webcam = source.isnumeric() or source.endswith('.txt') or (is_url and not is_file)
        if is_url and is_file:
            source = check_file(source)  # download

        # Directories
        save_dir = increment_path(Path(project) / name, exist_ok=exist_ok)  # increment run
        (save_dir / 'labels' if save_txt else save_dir).mkdir(parents=True, exist_ok=True)  # make dir

        # Load model
        device = select_device(device)
        model = DetectMultiBackend(weights, device=device, dnn=dnn, data=data)
        stride, names, pt, jit, onnx, engine = model.stride, model.names, model.pt, model.jit, model.onnx, model.engine
        imgsz = check_img_size(imgsz, s=stride)  # check image size

        # Half
        half &= (pt or jit or onnx or engine) and device.type != 'cpu'  # FP16 supported on limited backends with CUDA
        if pt or jit:
            model.model.half() if half else model.model.float()

        # Dataloader
        if webcam:
            view_img = check_imshow()
            cudnn.benchmark = True  # set True to speed up constant image size inference
            dataset = LoadStreams(source, img_size=imgsz, stride=stride, auto=pt)
            bs = len(dataset)  # batch_size
        else:
            dataset = LoadImages(source, img_size=imgsz, stride=stride, auto=pt)
            bs = 1  # batch_size
        vid_path, vid_writer = [None] * bs, [None] * bs

        # Run inference
        model.warmup(imgsz=(1 if pt else bs, 3, *imgsz), half=half)  # warmup
        dt, seen = [0.0, 0.0, 0.0], 0
        for path, im, im0s, vid_cap, s in dataset:
            flag = 0
            c = 1
            time1 = 6
            # t1 = time_sync()
            im = torch.from_numpy(im).to(device)
            im = im.half() if half else im.float()  # uint8 to fp16/32
            im /= 255  # 0 - 255 to 0.0 - 1.0
            if len(im.shape) == 3:
                im = im[None]  # expand for batch dim
            # t2 = time_sync()
            # dt[0] += t2 - t1

            # Inference

            visualize = increment_path(save_dir / Path(path).stem, mkdir=True) if visualize else False
            pred = model(im, augment=augment, visualize=visualize)
            # t3 = time_sync()
            # dt[1] += t3 - t2

            # NMS
            pred = non_max_suppression(pred, conf_thres, iou_thres, classes, agnostic_nms, max_det=max_det)

            # dt[2] += time_sync() - t3

            # Second-stage classifier (optional)
            # pred = utils.general.apply_classifier(pred, classifier_model, im, im0s)

            # Process predictions
            for i, det in enumerate(pred):  # per image
                seen += 1
                count = 0
                if webcam:  # batch_size >= 1
                    p, im0, frame = path[i], im0s[i].copy(), dataset.count
                    s += f'{i}: '
                else:
                    p, im0, frame = path, im0s.copy(), getattr(dataset, 'frame', 0)

                p = Path(p)  # to Path
                save_path = str(save_dir / p.name)  # im.jpg
                txt_path = str(save_dir / 'labels' / p.stem) + (
                    '' if dataset.mode == 'image' else f'_{frame}')  # im.txt
                s += '%gx%g ' % im.shape[2:]  # print string
                gn = torch.tensor(im0.shape)[[1, 0, 1, 0]]  # normalization gain whwh
                imc = im0.copy() if save_crop else im0  # for save_crop
                annotator = Annotator(im0, line_width=line_thickness, example=str(names))
                if len(det):
                    # Rescale boxes from img_size to im0 size
                    det[:, :4] = scale_coords(im.shape[2:], det[:, :4], im0.shape).round()

                    # Print results
                    for c in det[:, -1].unique():
                        n = (det[:, -1] == c).sum()  # detections per class
                        s += f"{n} {names[int(c)]}{'s' * (n > 1)}, "  # add to string

                    # Write results
                    for *xyxy, conf, cls in reversed(det):
                        count = 1
                        if save_txt:  # Write to file
                            xywh = (xyxy2xywh(torch.tensor(xyxy).view(1, 4)) / gn).view(-1).tolist()  # normalized xywh
                            line = (cls, *xywh, conf) if save_conf else (cls, *xywh)  # label format
                            with open(txt_path + '.txt', 'a') as f:
                                f.write(('%g ' * len(line)).rstrip() % line + '\n')

                        if save_img or save_crop or view_img:  # Add bbox to image
                            c = int(cls)  # integer class
                            label = None if hide_labels else (names[c] if hide_conf else f'{names[c]} {conf:.2f}')
                            annotator.box_label(xyxy, label, color=colors(c, True))
                            if save_crop:
                                save_one_box(xyxy, imc, file=save_dir / 'crops' / names[c] / f'{p.stem}.jpg', BGR=True)
                        box = xyxy        
                        c = int(cls)  # integer class
                        p1, p2 = (int(box[0]), int(box[1])), (int(box[2]), int(box[3]))
                        lw = max(round(sum(im0.shape) / 2 * 0.003), 2)
                        cv2.rectangle(im0, p1, p2, color=(0, 0, 255),
                                      thickness=max(round(sum(im0.shape) / 2 * 0.003), 2), lineType=cv2.LINE_AA)
                        label = (f'{names[c]} {conf:.2f}')
                        tf = max(lw - 1, 1)
                        w, h = cv2.getTextSize(label, 0, fontScale=lw / 3, thickness=tf)[0]  # text width, height
                        outside = p1[1] - h - 3 >= 0  # label fits outside box
                        cv2.putText(im0, label, (p1[0], p1[1] - 2 if outside else p1[1] + h + 2), 0, lw / 3,
                                    (0, 0, 255),
                                    thickness=tf, lineType=cv2.LINE_AA)

                # Stream results
                im0 = annotator.result()
                if view_img:
                    cv2.imshow(str(p), im0)
                    cv2.waitKey(1)  # 1 millisecond
                if (seen % time1 == 0):
                    if (count == 0):
                        save_c = 0
                    else:
                        save_c = save_c + 1
                if(save_c>=4):
                    if keep == 0:
                        im0 = cv2.cvtColor(im0, cv2.COLOR_BGR2RGB)
                        frame = Image.fromarray(np.uint8(im0))
                        #print(save_path)
                        frame.save(str(save_path.split('.')[0]) + ".jpg")
                        keep = 1
                        shutil.copy(so, save_path)
                        print('have animal')
                        break
            else:
                continue
            break


            # # Save results (image with detections)
            # if save_img:
            #     if dataset.mode == 'image':
            #         cv2.imwrite(save_path, im0)
            #     else:  # 'video' or 'stream'
            #         if vid_path[i] != save_path:  # new video
            #             vid_path[i] = save_path
            #             if isinstance(vid_writer[i], cv2.VideoWriter):
            #                 vid_writer[i].release()  # release previous video writer
            #             if vid_cap:  # video
            #                 fps = vid_cap.get(cv2.CAP_PROP_FPS)
            #                 w = int(vid_cap.get(cv2.CAP_PROP_FRAME_WIDTH))
            #                 h = int(vid_cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
            #             else:  # stream
            #                 fps, w, h = 30, im0.shape[1], im0.shape[0]
            #             save_path = str(Path(save_path).with_suffix('.mp4'))  # force *.mp4 suffix on results videos
            #             vid_writer[i] = cv2.VideoWriter(save_path, cv2.VideoWriter_fourcc(*'mp4v'), fps, (w, h))
            #         vid_writer[i].write(im0)

            # Print time (inference-only)
            # LOGGER.info(f'{s}Done. ({t3 - t2:.3f}s)')

        # Print results
        # t = tuple(x / seen * 1E3 for x in dt)  # speeds per image
        # LOGGER.info(f'Speed: %.1fms pre-process, %.1fms inference, %.1fms NMS per image at shape {(1, 3, *imgsz)}' % t)
        if save_txt or save_img:
            s = f"\n{len(list(save_dir.glob('labels/*.txt')))} labels saved to {save_dir / 'labels'}" if save_txt else ''
            # LOGGER.info(f"Results saved to {colorstr('bold', save_dir)}{s}")
        if update:
            strip_optimizer(weights)  # update model (to fix SourceChangeWarning)

        time1_end = time.time()
        print('视频%d处理时间' % number + str(time1_end-time1_start))
        # if bool == True:
        #     shutil.copy(so, save_path)
        # else:
        #     pass


def parse_opt():
    parser = argparse.ArgumentParser()
    parser.add_argument('--weights', nargs='+', type=str, default=ROOT / 'weights/best.pt', help='model path(s)')
    parser.add_argument('--vidpath', type=str, default='/home/ccf_disk/animal/video/4-3/',
                        help='file/dir/URL/glob, 0 for webcam')
    parser.add_argument('--data', type=str, default=ROOT / 'data/myvoc.yaml', help='(optional) dataset.yaml path')
    parser.add_argument('--imgsz', '--img', '--img-size', nargs='+', type=int, default=[640], help='inference size h,w')
    parser.add_argument('--conf-thres', type=float, default=0.75, help='confidence threshold')
    parser.add_argument('--iou-thres', type=float, default=0.45, help='NMS IoU threshold')
    parser.add_argument('--max-det', type=int, default=1000, help='maximum detections per image')
    parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
    parser.add_argument('--view-img', action='store_true', help='show results')
    parser.add_argument('--save-txt', action='store_true', help='save results to *.txt')
    parser.add_argument('--save-conf', action='store_true', help='save confidences in --save-txt labels')
    parser.add_argument('--save-crop', action='store_true', help='save cropped prediction boxes')
    parser.add_argument('--nosave', action='store_true', help='do not save images/videos')
    parser.add_argument('--classes', nargs='+', type=int, help='filter by class: --classes 0, or --classes 0 2 3')
    parser.add_argument('--agnostic-nms', action='store_true', help='class-agnostic NMS')
    parser.add_argument('--augment', action='store_true', help='augmented inference')
    parser.add_argument('--visualize', action='store_true', help='visualize features')
    parser.add_argument('--update', action='store_true', help='update all models')
    parser.add_argument('--project', default='/home/ccf_disk/animal/video_animal_yolov5/', help='save results to project/name')
    parser.add_argument('--name', default='4-3', help='save results to project/name')
    parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
    parser.add_argument('--line-thickness', default=3, type=int, help='bounding box thickness (pixels)')
    parser.add_argument('--hide-labels', default=False, action='store_true', help='hide labels')
    parser.add_argument('--hide-conf', default=False, action='store_true', help='hide confidences')
    parser.add_argument('--half', action='store_true', help='use FP16 half-precision inference')
    parser.add_argument('--dnn', action='store_true', help='use OpenCV DNN for ONNX inference')
    opt = parser.parse_args()
    opt.imgsz *= 2 if len(opt.imgsz) == 1 else 1  # expand
    print_args(FILE.stem, opt)
    return opt


def main(opt):
    check_requirements(exclude=('tensorboard', 'thop'))
    run(**vars(opt))


if __name__ == "__main__":
    opt = parse_opt()
    main(opt)

有点深),第一次发博客,浅记录一下。

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 好的,yolov5detect.py 是一个使用 YOLOv5 模型来检测视频中物体的 Python 脚本。你可以使用这个脚本来检测视频文件中的物体,并将检测结果保存到指定的输出文件中。在使用该脚本之前,你需要先安装好 YOLOv5 模型和相关依赖。 ### 回答2: yolov5detect.py是一个基于PyTorch框架的实现的目标检测算法,运用了YOLOv5算法。它经过训练的模型可在图像和视频检测出多个不同物体。 使用yolov5detect.py视频进行目标检测的步骤如下: 1. 首先要导入相应的库和模型文件,例如pytorch、cv2等。 2. 加载训练好的模型和相应的权重文件,模型和权重文件可在开源社区中得到,这里就不过多赘述了。 3. 读取视频文件,进行帧处理。将每一帧图像送入模型中进行预测,得出预测结果。 4. 通过绘制矩形框把检测出的目标显示在视频中。 对于yolov5detect.py中对于视频检测具体的优势在于: 1. 相比于图像识别,在视频中物体的移动更快,更加难以捕捉。Yolov5算法有着非常快的检测速度,能够在实时视频中快速检测出物体。 2. 它能够在视频中逐帧识别,每秒能够处理多张图片,可以更加准确的识别出哪些物体在视频中出现的时间和位置。 3. 相比于其他目标检测算法,它的精度更高,检测更加准确。 总之,yolov5detect.py目标检测算法具备实时性、准确性等特点,能够更好地解决视频中目标检测问题,对于视频监控等领域有着广泛的应用价值。 ### 回答3: yolov5detect.py是基于YOLOv5算法的视频检测脚本,可以使用该脚本进行物体检测、跟踪和计数等操作。该脚本的主要功能是实时检测视频中的物体,并将其标注出来。 使用yolov5detect.py进行视频物体检测,需要通过命令行指定参数,如视频路径、模型权重文件路径、基准置信度等等。该脚本会读取输入的视频文件,并对每一帧进行物体检测操作。在每一帧中,该脚本会检测出所有物体的类别和位置,并利用边界框将其框出来。同时,该脚本还会输出检测结果的置信度、运行时间等信息。 在进行视频物体检测时,YOLOv5算法具有较高的精准度和速度。该算法是基于深度学习的目标检测方法,其通过卷积神经网络提取特征,在预测时使用了更加高效的Anchor Boxes策略,可以更加准确地检测物体,并且运行速度也更快。 需要注意的是,使用yolov5detect.py进行视频物体检测时,需要配置合适的参数,并且对于不同的视频,其处理的速度和精准度可能会有所不同,需要经过一定的测试和调整,才能得到最优的结果。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值