目标检测学习笔记(二、起步篇)
本篇续上一篇,继续学习目标检测相关知识。笔记仅为巩固个人学习效果、督促自我进步用,若有读者发现不正确的地方请不吝指教。
3. 先验框
先验框,又称锚框,是目标检测过程中用到一个重要概念。按第1.4节中所描述,目标检测需要通过滑窗不断在图像上移动,对图像中的每个区域进行分类打分,那么这个滑窗就是先验框。
显然,先验框有不同的尺度,包括大小、长宽比。
为了覆盖更多可能的情况,在图中的同一个位置,会设置几个不同尺度的先验框。但这样带来的问题是,如果在原图中每个像素都设置多个先验框,先验框的数量就太多了。为了应对这种情况,一般会先对原图进行下采样。
3.1 下采样
下采样原理:对于一幅图像 I I I,尺寸为 M × N M\times N M×N,对其进行s倍下采样,即得到 ( M / s ) × ( N / s ) (M/s)\times(N/s) (M/s)×(N/s)尺寸的分辨率图像,其中s是M和N的公约数。如果考虑的是矩阵形式的图像,就是把原始图像 s × s s\times s s×s窗口内的图像变成一个像素,这个像素点的值是窗口内所有像素的均值:
p k = ∑ i ∈ w i n ( k ) I i / S 2 p_k={\sum_{i\in win(k)}I_i/S^2} pk=i∈win(k)∑Ii/S2
3.2 特征图
原图经下采样之后得到的称为特征图。目标检测先验框通过在特征图上进行遍历,这样大大减小了先验框的数量,同时也能覆盖大多数情况。
VOC数据集图片像素: 224 × 224 × 3 224\times224\times3 224×224×3,经5次下采样后,可得到