论文阅读笔记《DeepEMD: Few-Shot Image Classification with Differentiable Earth Mover’s Distance》

小样本学习&元学习经典论文整理||持续更新

核心思想

  本文提出一种基于度量学习的小样本学习算法(DeepEMD)。之前的基于度量学习的小样本学习算法通常是利用一个特征提取网络将支持集图像和查询集图像映射到一个特征空间,然后再设计或选择一种距离度量方式,来描述支持集图像和查询集图像之间的相似程度,并以此进行类别预测。而本文则是将图片拆分成多个图块,然后引入一种新的距离度量方式陆地移动距离(Earth Mover’s Distance,EMD),计算查询集和支持集图像的各个图块之间的最佳匹配代价来表示二者之间的相似程度。
  我们首先介绍下EMD的计算过程,EMD的计算本身是来源于线性规划中的运输问题,假设有一系列的货源地 S = { s i ∣ i = 1 , . . . , m } \mathcal{S}=\left \{s_i|i=1,...,m\right \} S={sii=1,...,m}和一系列的目的地 D = { d j ∣ j = 1 , . . . , k } \mathcal{D}=\left \{d_j|j=1,...,k\right \} D={djj=1,...,k} s i s_i si d j d_j dj分别表示货源地 i i i的货物供应量和目的地 j j j的货物需求量, c i j c_{ij} cij表示两地之间的单位运输成本, x i j x_ij xij表示两地之间的运输量,那么运输问题的目的就是寻找运输成本最低的运输方案 X ~ = { x ~ i j ∣ i = 1 , . . . , m , j = 1 , . . . , k } \tilde{\mathcal{X}}=\left \{\tilde{x}_{ij}|i=1,...,m,j=1,...,k\right \} X~={x~iji=1,...,m,j=1,...,k},过程如下
在这里插入图片描述
  本文将 S \mathcal{S} S D \mathcal{D} D分别看作支持集图像和查询集图像对应的特征图,特征图中的每个像素点都是一个带有权重的结点,而 s i s_i si d j d_j dj分别对应各个结点的权重,支持集特征图每个像素点对应的特征向量为 u i u_i ui,而查询集特征图每个像素点对应的特征向量为 v j v_j vj,则两个结点间的运输成本 c i j c_{ij} cij可定义为
在这里插入图片描述
通过求解上述的线性规划问题,寻找最优的运输方案 X ~ \tilde{\mathcal{X}} X~,则两幅特征图之间的相似性可由下式计算
在这里插入图片描述
  然后作者证明了求解 x ~ i j \tilde{x}_{ij} x~ij的过程是可微分的,因此可以采用梯队下降的方式进行求解。而在求解过程中结点上的权重 s i s_i si d j d_j dj是很重要的,他直接影响了运输方案的设计,因此本文提出一种相互参考机制(cross-reference mechanism),权重 s i s_i si计算过程( d j d_j dj的计算方法与其类似)如下
在这里插入图片描述
通过比较两方结点之间的关系来计算每个结点处的权重,这样做的目的是对于方差较大,变化较多的背景区域分配更少的权重,而对于两幅图中共现的目标区域分配更多的权重,然后再对所有的权重做正则化处理
在这里插入图片描述

  最后,将分类器中全连接层后的点乘操作,改为本文的EMD距离度量操作,就得到查询集图像与支持集图像的各个类别之间的相似性关系,进而预测分类结果,整体网络流程如下图所示
在这里插入图片描述

实现过程,

网络结构

  主干部分采用了全卷积的ResNet-10网络作为特征提取器。

创新点

  • 引入EMD距离度量方式,通过寻找各个图块之间的最佳匹配方式来计算距离
  • 设计了相互参考机制,用于计算每个节点处的权重

算法评价

  EMD距离最早是应用于图像检索等领域的,本文将其引入图像分类算法中,主要是看中了其考虑局部图块之间的匹配关系。在先前的文章中我们也提到过,相对于将一整幅图像压缩为一个高度抽象的特征向量,并计算两个特征向量之间的距离作为相似性度量的方式而言,通过比较各个局部图块之间的相似程度来反映两幅图像是否属于同一类别,则更为可靠和准确。但如果是每两个图块之间都逐一比对的话,这计算成本也过于高昂,于是作者就利用EMD方法,通过线性规划的方式寻找两幅图像各个图块之间的最佳匹配方式,并且为不同的位置的图块分配了不同的权重,类似于注意力机制,对于目标区域给予更多注意。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值