【笔记】目标检测以及分割的现状和挑战

最新推荐文章于 2024-04-28 00:30:00 发布

crushqqi

最新推荐文章于 2024-04-28 00:30:00 发布

阅读量1.1k

点赞数 3

分类专栏： crush的读书笔记文章标签：深度学习

本文链接：https://blog.csdn.net/crush111/article/details/112130285

版权

crush的读书笔记专栏收录该内容

11 篇文章 5 订阅

订阅专栏

outline

*检测和分割的定义
*检测和分割的现状
*挑战和未来

计算机视觉中的基础任务

*classification（分类）
*object detection（目标检测）
*semantic segmentation（语义分割）
*instance segmentation (实例分割）
*keypoint detection (关键点检测）
*VQA

定义：在分割中不同类用Pixel，一个mask来表示；检测：框检测。
在这里插入图片描述
人骨架识别，动作检测；如果有一些遮挡，很难处理的比较好。

检测评价指标

AP（average precision）和mAP
VOC数据集–precision（AP）;
Coco数据集–mmAP；
在这里插入图片描述
以IOU交/并之比作为（设定阈值）来作为是否正确的被检测出来。
mmAP
引入mmAP–对定位框准确度的评价;
不同的类别比如person，cat，bike，car有不同的AP，对所有的AP求average，得到mAP，之前提到IOU的阈值，假设对阈值（假设初始值0.5）做一些调整，比如0.55,0.6,0.7,0.8,0.9…会到不同的mAP的值，再对这些不同阈值下的mAP求一次average，就得到mmAP；

分割评价指标

IoU
在这里插入图片描述
精度 Precision 和召回 Recall 也是揭示最终分割结果性能好坏的基本指标；Precision表征分割结果的精确程度，recall反映了分割区域的完整性，是不是所有的待分割目标区域都被分割出来了。

检测vs分割

*相似点
**per-pixel localization（每个像素点的定位）
***spatial resolution
**recognition（识别）
***context
*区别点
**thing vs stuff
**表示方式

如何来做检测？

在这里插入图片描述
遍历所有Window的–滑窗法
1.每个框都是独立的，会导致上下文信息的丢失；
2.计算量很大。
全卷积网络；
1.复用计算，减少计算量；
2.不会丢失上下文信息，对整个篇幅的分类有帮助。

深度学习之前的检测

feature+classifier（特征+分类器）
**特征
***haar feature
***HOG (histogram of gradient)
***LBP(local binary pattern)
***ACF(aggregated channel feature)
**分类器
***SVM
***Boosting
***Random Forest

深度学习之前的检测

*传统方法
**easy to debug,analyze the cases(容易debug）
**reasonable performance on limited training data(小数据集上结果可以）
**efficient to compute on CPU(在CPU上计算量不大）
*缺点
**limited performance on large dataset (在大数据集上结果受限）
**hard to be accelerated by GPU (很难GPU并行）

深度学习时代的目标检测

根据是否需要“proposal and refine”
*one stage
**example:Densebox,YOLO(you only look once),SSD,RetinaNet
**key word:anchor,divide and conquer,loss sampling
*two stage
**example:RCNN,RFCN,FPN,MaskRCNN
**key word:speed,performance
在这里插入图片描述没有引入anchor先验框，正负样本数比较平衡；
*存在的问题：

此后，SSD引入anchor的定义。
对于遮挡问题做了较好的优化，关注offset_set;

SSD–>Retinanet

RCNN–Feature提取器，缺少神经网络的优化；

在这里插入图片描述