目标检测基础
范式演化
滑动窗口:
将原图的多个窗口切片独立重复进行卷积的操作,替换成对整张原图进行卷积,然后再用窗口提取局部区域,后续仍用FC预测概率。 隐含的意义在于:
不同窗口之间可能会有重复区域,反复进行独立的卷积,且用的是相同的卷积核,浪费计算量
( 也可能是, 通过卷积将像素级的信息,进一步凝练 ?)
密集预测:
对特征图的每个像素,进行1x1的卷积,以替代全连接,将特征图转换为概率图。
对每个像素都进行预测,即为密集预测
方法论:
两阶段方法:
先产生窗,再基于窗内的特征进行预测
单阶段方法:
对特征的单点特征实现密集预测(能不能考虑融合其它信息)
分类:
基于anchor:解决物体重叠和不同大小
anchor-free
Transformer方法
基础知识:
置信度:
置信度可能与IOU有关? 置信度越高,则IOU越大? 并不一定,但很可能
NMS:
逐步从置信度最高的预测里,进行IOU的比较,来找到质量最好的框
IOU是实际指标, 置信度是网络预测
人们应该比较期望置信度与IOU趋势一致,但无法严格保证
边界框编码:
绝对偏移量数值较大,难以预测
推理时,还需要逆向解码
区域提议:
基于特征作二分类,仅判断其内是否存在物体,从而实现区域提议
问题:
物体尺度不一
不同物体存在重叠
改进:
anchor:
不同尺度,多个提议框
多个类别: 单阶段网络
正负网络不均衡问题:模型偏向背景预测
Focal Loss
未完待续...