【论文笔记 FSL 4】DeepEMD: Few-Shot Image Classification with Differentiable Earth Mover’s Distance and Structured Classifiers(CVPR2020)
Abstract
在本文中,作者提出一种基于图像区域之间最佳匹配的小样本图像分类算法,采用Earth Mover’s Distance(EMD)作为度量来计算密集图像表示之间的结构距离,以确定图像相关性。为了生成EMD公式中元素的重要权重,设计了一种交叉参照机制,可以有效地最小化背景杂乱和类内外观较大变化所造成的影响。处理k-shot分类,建议学习结构化的约束完全连接层,可以直接进行分类与EMD表示。根据隐函数定理,将EMD作为一层插入到网络中进行端到端训练。
Contributions
- 作者建议小样本图像分类形式化为最佳匹配问题,并采用EMD距离作为结构化表示之间的距离度量。 EMD层可以嵌入到网络中 以进行端到端训练。
- 提出了一种交叉引用机制来生成EMD公式中元素的权重,可以有效减少图像中背景区域引入的噪声。
- 建议在k-shot设置中学习一个结构化的全连通层,可以直接利用EMD对结构表示的图像进行分类。
Method
1 Revisiting Earth Mover’s Distance
Earth Mover’s Distance(推土机距离/搬土距离),是2000年IJCV期刊文章《The Earth Mover’s Distance as a Metric for Image Retrieval》基于运输问题的效率提出的一种直方图相似度量,可以用来测量两个分布之间的距离。
假设有一系列的货源地S,和一系列的目的地D,si表示货源地i的货物供应量,di表示目的地j的货物需求量,cij表示两地之间的单位运输量,cij表示两地之间的单位运输成本,则运输成本最低的运输方案为:
2 EMD for Few-Shot Classification
在小样本图像分类算法中,S和D分别表示为支持集的嵌入特征u和验证集的嵌入特征v,嵌入特征中的每个像素点都是带权重的节点,si和di分别对应着各个节点的权重。则两个节点间的运输成本可以表示为:
则两张图片的相似性可以表示为:
EMD原理图如图所示:
3 Structured Fully Connected Layer
4 DeepEMD
Experiments
1 Results
Architectures
ResNet-12