目标检测模型

Cherry_xinda

已于 2024-03-21 15:30:07 修改

阅读量486

点赞数 11

文章标签：目标检测

于 2024-01-23 17:45:13 首次发布

本文链接：https://blog.csdn.net/m0_63131662/article/details/126042422

版权

目标检测

one-stage: 一步到位，代表有YOLO、SSD
two-stage：分两个阶段，先提取候选框，在逐一甄别，代表有RCNN系列

yolo 实质:
框：bounding box
网格: grid cell -> 预测b个框和c个条件类别概率

预测阶段：
将图片放到 detect.py 中后，会将该图片划分成 s * s 的网格(s=7)，每一个网格只能甄别一个物体，所以一张图片最多可以甄别 s * s 个物体，每一个网格会生成b个框(b=2)，哪一个框和训练形成的框交并比大，就保留那个框。

每一个框包含4个位置参数(x,y,w,h)和1个置信度，用框的粗细来反映confidence value。

对于voc数据集，s=7，b=2， yolo模型输出的图片大小是7 * 7 * 30（30为通道数: 2个框，一个框5个参数，还有20个类别的条件类别概率），每一个grid cell，都是一个30维的向量

训练阶段：
（损失是 output 和 target 之间比较产生的）

将图片(input)和标注经过特征提取网络后，该图片(output)会被划分成s*s的网格(s=7)，事先人工标注(target)的框的中心点落在哪一个网格，那么哪一个网格生成的框就负责拟合这个人工标注的框，每一个网格会预测生成随机尺寸的b个框(b=2)，看看该网格生成的框，哪一个框与标注好的框的交并比大，就保留哪一个框（非极大值抑制过程）（如果两个框的中心点没有落在人工标注的框的中心点的grid cell中，那么就都不保留），然后训练模型更新参数时，会逐渐拟合那一个框使得和人工标注框相同，损失函数最小，最终拟合出一个相对精确的框代表那一类别，至此一张图片的训练完毕。

rcnn系列

rcnn

算法的四个步骤：
在这里插入图片描述
对于pascal 数据集：

第一步：
通过 SS算法，将输入的一张图像生成2000个候选框，候选框之间会有重叠，导致重复计算特征，导致速度慢
第二步：
将每个候选框中的图片区域，resize成合适的尺寸，然后对于每个候选区域，都放到深度神经网络中提取特征，每个候选区域都有4096个特征向量，一共有2000个候选框，所以得到2000 * 4096的特征矩阵。
第三步：
将2000 * 4096 的特征矩阵与20个SVM组成的 4096 * 20 的权值矩阵相乘，获得2000 * 20 的概率矩阵，2000个候选区域，每个候选区域（每一行）都对应着20个分类的概率。分别对上述2000 * 20的概率矩阵中的每一列即每一类进行非极大值抑制来剔除重叠建议框，得到该列中即该类得分最高的一些建议框。
第四步
精细修正候选框位置。