Transformer
文章平均质量分 59
彭祥.
本科专业软件开发,主为 Java编程,如Spring、SpringBoot等;研究生期间主修图像目标检测,对DETR、YOLO等目标检测方法具有较深入研究,并对图像分类、实例分割、目标追踪等计算机视觉任务有一定研究经验。
展开
-
RT-DETR 目标检测视频推理
事实上,进行视频推理的过程与单张图片的过程及其类似,就是将原本的视频切分为多帧图像后再进行推理即可。这里面涉及到Image等相关操作,今天便借此机会梳理一遍。先前介绍了RT-DETR推理单张图像的案例,今天则介绍以下如何利用RT-DETR来进行视频推理。根据结果获取目标类别,标注框与得分,并将其绘制在每张图像上。可以看到,其在视频推理过程中,对CPU的利用率明显增高。视频合成,指定合成视频的名称,帧率等信息,将。利用cv2生成视频读取器,读取视频。是否可用,同时进行前向推理,并计算。原创 2024-07-17 10:55:25 · 469 阅读 · 2 评论 -
注意力机制学习记录
ECA通道注意力机制,SELayer的改进版本原创 2023-06-02 10:25:36 · 144 阅读 · 0 评论 -
PVT(Pyramid Vision Transformer)学习记录
x为torch.Size([2, 3136, 64]),首先经过permute进行维度变换为torch.Size([2, 64,3136]),随后经过reshape为:torch.Size([2, 64, 56, 56])值得注意的是,只有stage1上patch=4,在后面的三个stage上patch都为2,这样也就参考卷积,其是一个二倍大小的关系。首先我们的输入图片为torch.Size([2, 3, 224, 224]),即batch-size=2,channel=3,W=H=224。原创 2023-05-16 15:28:09 · 2817 阅读 · 2 评论