Beyond Max-Margin: Class Margin Equilibrium for Few-shot Object Detection论文阅读

oyou-2021

于 2022-07-06 22:26:16 发布

阅读量1k

点赞数 2

分类专栏： Few-shot Learning 论文阅读文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_63520910/article/details/125622173

版权

论文阅读同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

Few-shot Learning

2 篇文章 0 订阅

订阅专栏

动机

新的类别分类和表示之间的隐含矛盾被忽略了，这个矛盾是——为了将类彼此分开，两个基类中的任何一个基类都需要彼此相距较远(max-margin))，这聚合了新类的类内距离。为了准确地表示新类，基类的分布应该接近新类的分布(min-margin)，这提高了分类的难度。如下图

即如何在分类和表示中取得平衡，是一个问题。因此作者提出CME，优化特征空间划分和novel类表示。

贡献

模型结构

对于训练和微调阶段所用的数据集dataset D都被分为支持集和询问集，具体如下图：

该个网络结构由两个分支组成，即支持集分支和询问集分支。

支持集分支：先将支持集图片和它对应的边界框输入到卷积神经网络中去，来提取卷积特征映射。然后利用全局最大池化GMP，将这个映射压缩到原型向量

计算平均原型

询问集分支：通过卷积神经网络提取出询问集图片的卷积特征

然后通过以像素为单位的乘法运算与原型向量{μi}相乘来激活这个特征，然后将激活的特征送入预测（分类和定位）模块，计算检测损失（分类和定位损失）：

特征过滤：对于目标检测，卷积特征结合了定位特征和分类特征。分类特征是类相关的，但是定位特征与类无关，可能会干扰类边界。因此为了过滤出定位特征，设置了全连接层来分离定位特征，将目标检测问题转化为分类问题。在 max-margin loss的驱动下，在检测器训练期间过滤出定位特征。

Base Training: Class Max-margin：为了追求类最大边际，相同base类的原型向量要接近它们的平均原型（即类内距离最小），不同类之间的原型向量要彼此远离（即类间距离最大）。对于第k个实例，其平均原型向量就是前k个实例的平均向量

对于CNN构造的特征空间，很难直接计算出两类之间的距离。作为近似，我们首先计算边际的上下界，如下式边际的上下界所示

Detector Training：通过优化目标检测损失和最大边际损失来训练检测网络，即训练损失为：

Finetuning: Margin Equilibrium：如果没有足够的数据，novel类无法显著改变特征表示，因此novel类需要通过在base类上学习的特征来表示。base类之间的距离不能太大也不能太小，为了解决这个问题，本文基于特征干扰提出了边际平衡策略。

Feature Disturbance：在反向传播阶段支持集图片的梯度图为

，较大梯度的像素对应于具有较大辨别能力的对象部分，并且对减少微调损失贡献更大。

在检测器训练期间，执行干扰过程以截断大梯度的像素并干扰微调的特征。这是通过根据梯度图重新采样真实边界框的掩码来实现的：

支持集掩码根据梯度图被更新，如

在微调阶段，更新过之后，计算原型向量

最小化微调损失：

在反向传播过程中，根据最大化Max-margin来更新网络参数，过程中类内和类间距离之间的关系是相反的。

在正向传播过程中，M S 根据支持集掩码更新公式来更新，这是通过重新采样支撑集掩码实现的。

在这种方式下，无关的特征会被去掉，使得形成辨别性强大的原型的重新采样特征减少。即采用对抗性的最小-最大边界方式:

可以由上图看出，整体分两个阶段：第一阶段用base类数据来训练，构建特征表示；第二阶段用base类和novel类平衡的数据集进行微调，来从novel类中识别出小样本的目标。

实验部分

在PASCAL VOC和MS COCO数据集上进行。作为一个即插即用的模块，CME分别和单级检测器（Meta YOLO）和二级检测器（MPSP）进行融合。

消融实验

检测CME各个模块的性能

Max-margin模块在给定数据样本受限的情况下（shot=1）表现一般，在shot=2、3、5都有明显提升。加上feature filtering和feature disturbance模块后检测效果稳步提升。

对输出通道的个数进行试验

实验结果显示，输出通道设置成512得到的效果综合来说最好。

表3实验了在哪进行特征干扰表4实验了采用哪种干扰策略

表3结果显示，在没有novel类的情况下对base类的原型进行干扰，效果更好。表4则证明了，梯度截断是更好的特征干扰策略。

实验效果

使用t-sne进行可视化，在baseline中的“cow”类别作为novel类和其他类别交叠在一起了，而用了CME方法则能更好地区分出来。

【小样本目标检测】Beyond Max-Margin: Class Margin Equilibrium for Few-shot Object Detection - 知乎

oyou-2021

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Beyond Max-Margin: Class Margin Equilibrium for Few-shot Object Detection论文阅读

新的类别分类和表示之间的隐含矛盾被忽略了，这个矛盾是——为了将类彼此分开，两个基类中的任何一个基类都需要彼此相距较远(max-margin))，这聚合了新类的类内距离。为了准确地表示新类，基类的分布应该接近新类的分布(min-margin)，这提高了分类的难度。如下图即如何在分类和表示中取得平衡，是一个问题。因此作者提出CME，优化特征空间划分和novel类表示。对于训练和微调阶段所用的数据集dataset D都被分为支持集和询问集，具体如下图：该个网络结构由两个分支组成，即支持集分支和询问集分支。支持集
复制链接

扫一扫

专栏目录