目标检测学习笔记（一）

最新推荐文章于 2022-08-10 20:09:30 发布

儒雅的顾毛毛

最新推荐文章于 2022-08-10 20:09:30 发布

阅读量397

点赞数

分类专栏：目标检测文章标签：计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38077244/article/details/104942515

版权

目标检测专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 基本检测流程

生成候选区域（确定搜索范围）
提取区域特征（将候选区域表示为定长向量）
分类（确实是否包含物体及物体类别）
后处理（对重合度较高的矩形框合并）

包含two-stage和one-stage两种，区别在于是否有候选区域的生成过程

2. R-CNN

RCNN过程

生成候选区域
传统方法：滑动窗口+金字塔
selective search:
- 现有分割方法将图像快速划分为多个区域
- 基于相似度对相邻区域合并
- 不断合并区域直至整张图像为一个区域
- 合并区域过程中产生的所有区域给出矩形框，得出候选窗口
CNN+softmax或SVM分类
- 矩形框resize到相同大小227*227, 适当扩大一点矩形框范围
- 有监督预训练+fine tuning
边框校准
- 对（x, y, w, h）坐标及长宽做回归，即对边框精细校准

3. SPP-net

允许任意大小的输入，不需要满足CNN的输入大小相同的要求，同时提升速度
候选矩形框直接通过SPP生成固定长度的特征向量，最后输入到全连接层

4. Fast R-CNN

在这里插入图片描述

保留SPP-Net多尺度信息，简化为ROI-pooling单尺度，可指定划分网格具体大小，整张图上做一次卷积层的计算
多任务学习，整合之前多个单任务，将分类和回归一起训练
两点改进：边框回归采用 $s m o o t h$ $L 1$ $l o s s$ ，模型更鲁棒；对全连接层权重矩阵改进，截断truncated SVD分解降低复杂度
节省时间，精度也没有降低，甚至可能比之前好

4. Faster R-CNN

优化候选框的生成过程，RPN网络，采用CNN结构生成候选区域，生成候选框的CNN和分类的CNN共享卷积层；
Anchor box：滑动窗口预先设定具有不同尺度，不同长宽比的矩形框；按Ground Truth标定这些anchor box的正负，于是，传入RPN网络的样本数据被整理为anchor box（坐标）和每个anchor box是否有物体（二分类标签）RPN网络将每个样本映射为一个概率值和四个坐标值，概率值反应这个anchor box有物体的概率，四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的损失统一起来，作为RPN网络的目标训练。
由RPN得到Region Proposal在根据概率值筛选后经过类似的标记过程，被传入R-CNN子网络，进行多分类和坐标回归，同样用多任务损失将二者的损失联合。
训练方式

5. R-CNN系列比较

在这里插入图片描述

5. R-FCN, FPN, Mask-RCNN

6. YOLO

将图像划分成网格grid，预测网格内边框信息；
物体边框预测以整张图特征为输入，充分的上下文信息，背景误检少；
存在的问题：小目标问题，密集排布的物体，检测框的准确性不够高

7.SSD (single-shot mutli-box detector)

default box 类似anchor box，不同长宽比物体用不同的predictor；不同于RPN的点是既要给出是否有物体，还要给出具体类别，one-stage
多尺度，在不同尺度特征图上预测；非极大值抑制去除冗余边框
multi-box：default box的设计及训练策略

8. DSSD （devconvolutional）

解决SSD的小目标问题，提供上下文信息，融合深层特征和浅层特征；深层特征由反卷积提供
更加复杂的预测模块，跨层连接的卷积结构预测

9. RetinaNet

主要解决单阶段检测器精度不准中样本不平衡问题（背景较多），
1. 背景易区分为模型学习提供的信息有限
2. 背景数量较多可能学习到不好的模型
现有的方法，采样，OHEM难例挖掘，但是只使用部分样本
RetinaNet给全部样本赋予权重，focal loss；误分严重的样本权重大
速度和单阶段检测器相仿，精度比双阶段检测器精度高

9. 评价标准

交并比（IOU）
匹配策略：
1. 贪心算法；
  按照得分从高到低排列，搜索满足交并比阈值的检测框
  大部分数据集的评测方式
2. 匈牙利算法；
  将匹配建模成一个分配问题，最大化交并比
  FDDB人脸检测数据集采用这种方式评价
检测框匹配：
—— 动态交并比阈值
a. 不同大小的框对交并比的“敏感程度”不同
b. ImageNet 评测较小物体时会适当放宽阈值
——按条件匹配/忽略框
具体评价指标
PR曲线：纵轴精确率，横轴召回率
平均精确率
——AP（average precision）：不同召回率下的平均
均匀计算11个不同召回率下 $\in {0, 0.1, 0.2, ... 1.0}$
计算PR曲线下面积
——mAP（mean average precision）：不同类别下的平均
——mmAP（mean mAP）：不同IOU阈值下的平均，很少使用，
一般分别给出各个阈值下的mAP

引用内容：深度学习目标检测

儒雅的顾毛毛

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。