【OpenMMLab】目标检测与MMDetection

最新推荐文章于 2024-10-05 16:21:03 发布

Donny0v0

最新推荐文章于 2024-10-05 16:21:03 发布

阅读量94

点赞数

分类专栏： OpenMMLab 文章标签：目标检测计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DplusC/article/details/131117052

版权

OpenMMLab 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

本文介绍了OpenMMLab框架下的目标检测技术，包括人体姿态估计、关键点检测、预训练模型等。目标检测任务是在图像中识别并定位物体，区别于图像分类。文章讨论了滑窗算法、边界框回归、非极大值抑制等技术，以及现代检测器如何通过卷积网络优化这些过程。此外，还提到了训练过程中的匹配策略和置信度计算。

摘要由CSDN通过智能技术生成

系列文章目录

第一课：【OpenMMLab】OpenMMLab概述
第二课：【OpenMMLab】人体姿态估计、关键点检测与MMPose
第三课：【openMMLab】MMPose 代码教程
第四课：【OpenMMLab】深度学习预训练与 MMPreTrain
第五课: 【OpenMMLab】MMPretrain 代码教程

目标检测

课程视频：https://www.bilibili.com/video/BV1Ak4y1p7W9

任务介绍

给定一张图像，用矩形框框出所有感兴趣的物体，同时给出每个矩形框中物体的类别。
如下图，检测到图像中央的椅子并给出类别。

在这里插入图片描述

目标检测 vs 图像分类

图像分类通常只有一个物体，位于图像中央，是图像的主题内容；目标检测处理的图像中，物体数量、位置和大小都不确定。

在这里插入图片描述

目标检测应用

在这里插入图片描述

目标检测技术的演进

在这里插入图片描述

基础知识

框 Bounding Box

框泛指图像上的矩形框，边界横平竖直
描述一个框需要 4个像素值:

方式1:左上右下边界坐标(l,t,r,b)
方式2:中心坐标和框的长宽(x,y,w,h)
边界框通常指紧密包围感兴趣物体的框检测任务要求为图中出现的每个物体预测一个边界框

在这里插入图片描述

交并比 Intersection of Union

交并比(loU)定义为两矩形框交集面积与并集面积之比，是矩形框重合程度的衡量指标

在这里插入图片描述

基本思路

基本流程

用模型做密集预测，得到预测图，每个位置包含类别概率、边界框回归的预测结果
保留预测类别不是背景的“框
基于“框"中心，和边界框回归结果，进行边界框解码
后处理: 非极大值抑制 (Non-Maximum Suppression

问题难点

需要同时解决“是什么”和“在哪里”
图中物体位置、数量、尺度变化多样

在这里插入图片描述

滑窗 Sliding Window

一个好的检测器应满足不重、不漏的要求；滑窗是实现这个要求的一个朴素手段

设定一个固定大小的窗口
遍历图像所有位置，所到之处用分类模型(假设已经训练好)识别窗口中的内容
为了检测不同大小、不同形状的物体，可以使用不同大小、长宽比的窗口扫描图片

滑窗问题：难以承受的计算量

在这里插入图片描述
改进思路1: 使用启发式算法替换暴力遍历用相对低计算量的方式粗筛出可能包含物体的位置，再使用卷积网络预测早期二阶段方法使用，依赖外部算法，系统实现复杂;
改进思路 2: 减少冗余计算，使用卷积网络实现密集预测目前普遍采用的方式

问题： 重叠部分用相同的卷积计算了多次

在这里插入图片描述
改进思路: 用卷积一次性计算所有特征，再取出对应位置的特征完成分类

在这里插入图片描述

边界框回归 Bounding Box Regression

问题
滑窗(或其他方式产生的基准框)与物体精准边界通常有偏差
处理方法
让模型在预测物体类别同时预测边界框相对于滑窗的偏移量

在这里插入图片描述

基于锚框 vs 无锚框

在这里插入图片描述

非极大值抑制 Non-Maximum Suppression

滑窗类算法通常会在物体周围给出多个相近的检测框这些框实际指向同一物体，只需要保留其中置信度最高的

在这里插入图片描述
非极大值抑制算法的实现：

在这里插入图片描述

置信度

模型认可自身预测结果的程度，通常需要为每个框预测一个置信度，我们倾向认可置信度高的预测结果，例如有两个重复的预测结果，丢弃置信度低的

部分算法直接取模型预测物体属于特定类别的概率
部分算法让模型单独预测一个置信度(训练时有GT，可以得相关信息作为监督)

在这里插入图片描述

训练

检测头在每个位置产生一个预测(有无物体、类别、位置偏移量)
该预测值应与某个真值比较产生损失，进而才可以训练检测器
但这个真值在数据标注中并不存在，标注只标出了有物体的地方
我们需要基于稀疏的标注框为密集预测的结果产生真值，这个过程称为匹配(Assignment)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Donny0v0 CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

53万+: 周排名

13万+: 总排名

1万+: 访问

: 等级

251: 积分

78: 粉丝

99: 获赞

1: 评论

84: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文阅读】Recognize Anything: A Strong Image Tagging Model
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【OpenMMLab】人体姿态估计、关键点检测与MMPose
是个蛋挞: 请问博主，姿态估计得到关键点后是如何再进行行为分析的呢？
【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【OpenMMLab】深度学习预训练与 MMPreTrain
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 如何入门编程: https://activity.csdn.net/creatActivity?id=10459?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 【奖牌赠送开启】送你一枚荣誉奖牌，感谢你的辛勤付出！: https://activity.csdn.net/creatActivity?id=10440?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket
【OpenMMLab】OpenMMLab概述
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。