论文阅读笔记RepMet《Representative-based metric learning for classification and few-shot object detection》

最新推荐文章于 2022-09-12 20:54:09 发布

遥感深度学习

最新推荐文章于 2022-09-12 20:54:09 发布

阅读量270

点赞数

分类专栏：小样本

原文链接：https://blog.csdn.net/qq_36104364/article/details/106472082

版权

小样本专栏收录该内容

12 篇文章 6 订阅

订阅专栏

原文下载：https://arxiv.org/pdf/1806.04728.pdf
源码地址：https://github.com/jshtok/RepMet (MXNet)
部分引用格式的是我自己添加的一点认识，其他部分都是摘自深视大佬：https://blog.csdn.net/qq_36104364/article/details/106472082

动机

之前在做小样本学习时，如原型网络，基本假设是：类别分布在嵌入空间中是单峰的（类似正态分布，只有一个峰），也就是说存在一个原型点。但是在实际中，类别的表征不一定是单峰的，可能是多个模式的混合表示。
因此，本文需要学习每个类别的多模态混合表征，同时学习利用到表征的嵌入空间。

核心思想

Backbone,embedding space and representatives are learned jointly,这里的骨干网络和嵌入空间都很好理解，属于基于小样本度量学习的常规概念，这里的表征算是作者的动机吧。

****作者提出一种基于表征的度量学习方法用于解决小样本分类和目标检测问题。作者提出每个类别的样本，其在嵌入式空间（特征空间）中的分布都属于一种混合分布模型，而每个模型分量的众数mode（也就是概率密度函数最高点，峰值peak），就是该类样本的一个表征。通过度量输入图像对应的特征向量与各个类别对应表征之间的距离，预测输入图像的类别。网络结构如下图所示。
在这里插入图片描述

****首先输入图像经过一个特征提取网络（如InceptionV3）得到特征向量，然后经过DML（Distance Metric Learning）嵌入模块，将其转化为一个嵌入特征向量E ∈ R ^e 。另一方面，通过一个全连接层将一个输入标量“1”转化为各个类别的表征。具体而言，该全连接层有N × K × e 个单元，其中N 表示N个类别，K表示每个类别包含K 个表征（也就是混合分布中包含K 个分量），e 表示特征向量的长度，则将该全连接层的输出转为N × K × e 的张量就得到了表征R _i,j（第 i 各类别的第j 个表征分量）。因为全连接层只有一层，且输入为标量“1”，因此输出就等于权重，权重就等于输出。然后将表征R_i.j和输入图像对应的嵌入式特征向量E输入距离度量网络中，输出对应的距离矩阵d_i,j= d(E.R_i,j)。最后根据距离计算，图像属于某个类别的概率：

在这里插入图片描述

****本文假设每个类别的分布是一个各向同性的多分量高斯混合分布，σ ² 为方差。对于小样本分类问题，输入X属于类别i 的概率为

在这里插入图片描述

****对于目标检测问题，输入X 属于类别i 的概率为：

在这里插入图片描述

这里多模态混合分布的处理也是简单的，假设所有类分布都是各向同性的多变量高斯分布且方差相等，因此不需要学习混合系数，仅需要学些类别的最大后验概率。

实现过程

网络结构

****DML嵌入模块是由两个全连接层构成，第一层有2048个单元，且带有BN层和ReLU层，第二层有1024个单元，且只有线性激活层，对于输出的嵌入特征向量进行L2正则化。距离度量网络没有介绍?

损失函数

****损失函数包含两个部分：分类损失和嵌入损失。分类损失就是简单的交叉熵损失函数，嵌入损失计算方式如下
在这里插入图片描述

式中i ^*表示正确的类别，上式要求嵌入特征向量E 与正确类别的表征之间的最近距离，要比与其他错误类别的表征之间的最近距离小α，否则会受到惩罚。

训练策略

算法推广

****将标准两级目标检测网络中FPN输出的该兴趣区域ROI作为输入，用本文设计的分类网络取代RCNN分类器的部分，就能够实现小样本目标检测任务。在该任务中需要增加背景类别的预测，其概率预测为
在这里插入图片描述

创新点

采用基于表征的度量学习方法，实现了小样本分类任务
将分类网络取代目标检测模型中的分类器部分，实现了小样本的目标检测任务

算法评价

****本文采用基于表征的度量学习方法，假定每个类别在特征空间中都符合混合高斯分布，那么混合高斯分布中每个组成分量的众数就对应着该类别的一个表征，通过度量表征与输入图像特征向量之间的距离，得到输入图像属于某个类别的概率。文中有许多细节问题我并没有完全搞懂，首先在计算每个类别的表征时，只采用一个全连接层，且输入是固定的标量，这意味着类别的表征学习全部依赖于损失信息对于权重值的更新（理想状态是每个类别的样本只会激活其中的几个特定的单元），这种方式在处理未见过的少量新样本时能否及时更新，且不出现过拟合的问题呢？此外，如果全连接层的结构确定了，那么预测的类别数量N NN也就固定了，如果测试中类别数量改变了，就需要更改全连接层的参数，那么所谓的端到端训练也只是对嵌入模块和距离度量网络进行训练。对于度量学习中的关键部分——距离度量网络，作者并没有仔细的介绍，这也是本文的一大缺憾。但本文是我读到的第一篇实现小样本目标检测问题的，这一方向将成为下一步学习的重点。
>这篇文章确实挺难懂的，原始论文的表达比较有限，需要更深一步了解的话，还是结合代码来看吧，虽然是MXNet的。
————————————————
版权声明：本文为CSDN博主「深视」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_36104364/article/details/106472082

遥感深度学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
论文阅读笔记RepMet《Representative-based metric learning for classification and few-shot object detection》

原文下载：https://arxiv.org/pdf/1806.04728.pdf 源码地址：https://github.com/jshtok/RepMet (MXNet) 部分引用格式的是我自己添加的一点认识，其他部分都是摘自深视大佬：https://blog.csdn.net/qq_36104364/article/details/106472082动机之前在做小样本学习时，如原型网络，基本假设是：类别分布在嵌入空间中是单峰的（类似正态分布，只有一个峰），也就是说存在一个原型点。但是在实际
复制链接

扫一扫